Diplomarbeit Keinath, Tarnow - Erich-Thienhaus
Transcrição
Diplomarbeit Keinath, Tarnow - Erich-Thienhaus
Entwicklung und Erprobung einer Methode zur Integration binauraler Raumimpulsantworten bei der Mischung von Mehrspurproduktionen Diplomarbeit Hochschule für Musik Detmold Erich-Thienhaus Institut vorgelegt von Daniel Keinath Christopher Tarnow Bergstraße 17, 32756 Detmold, Matr.-Nr. 7904 Alexanderstraße 48, 04109 Leipzig, Matr.-Nr. 7928 Erstgutachter: Prof. Dr. Dipl.-Ing. Malte Kob Detmold, den 21. Oktober 2009 Inhaltsverzeichnis 1 Grundlagen 1.1 Binauraltechnik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1.1 Natürliche Richtungswahrnehmung . . . . . . . . . . . . . . . . . . . . . . . . . 1.1.2 Kopfbezogene Stereophonie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1.3 Betrachtungen zur Kompatibilität raumbezogener und kopfbezogener Systeme . 1.1.4 Systembedingte Probleme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Lineare Systeme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.1 Allgemeine Anmerkungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.2 Impulsantwort . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.3 Fourier-Transformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.4 Diskrete Faltung, schnelle Faltung . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Andere binaurale Systeme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.1 Binaurale Simulation eines Abhörraums . . . . . . . . . . . . . . . . . . . . . . 1.3.2 Virtuelle Welten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.3 Crosstalk Cancellation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.4 Binaural Sky . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.5 Binaurales Panning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 4 4 5 5 6 8 8 8 9 10 12 12 13 13 14 15 2 Methode 2.1 Messung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Erfassung und Sortierung der Messdaten . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 Einbindung in die Digital Audio Workstation (DAW) . . . . . . . . . . . . . . . . . . . . 2.4 Probleme der Methode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.1 Eindimensional abgebildete Räume . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.2 Künstlerische Inkompatibilität von Aufnahmeraum und gemessenem Raum . . . 2.4.3 Zusammenfallen des Raumes durch Spiegelung der gemessenen Impulsantworten 2.4.4 Fehlen eines Headtracking-Systems . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.5 Vernachlässigung spezifischer Richtcharakteristiken der Schallquellen . . . . . . . 2.5 Systemoptimierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.1 Spreizung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.2 Modifikation der Impulsantworten . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.3 Ersetzen von Einzelschallquellen durch Phantomschallquellen . . . . . . . . . . . 2.5.4 Resampling von Impulsantworten . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.5 Bewegte Schallquellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 16 19 20 21 21 22 22 23 23 25 25 25 27 27 28 3 Hörvergleich 3.1 Versuchs-Design . . . . . . . . 3.1.1 Testabschnitt 1 . . . . 3.1.2 Testabschnitt 2 . . . . 3.1.3 Testabschnitt 3 . . . . 3.1.4 Testabschnitt 4 . . . . 3.2 Auswertung des Hörvergleichs 3.2.1 Testabschnitt 1 . . . . 3.2.2 Testabschnitt 2 . . . . 3.2.3 Testabschnitt 3 . . . . 3.2.4 Testabschnitt 4 . . . . . . . . . . . . . . 29 29 30 32 33 36 38 39 41 43 45 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Fazit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 1 5 Appendix 5.1 Betrachtungen zur Aufnahme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.1 Hauptmikrofonsysteme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.2 Aufstellung der Stützmikrofone . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2 Betrachtungen zur Mischung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.1 Platzierung von Stereosignalen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.2 Platzierung von Hauptmikrofonsignalen . . . . . . . . . . . . . . . . . . . . . . . 5.2.3 Platzierung von Raummikrofonsignalen . . . . . . . . . . . . . . . . . . . . . . . 5.2.4 Folgen von Übersprechen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.5 Einstellung der Distanz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.6 Zusätzlicher Nachhall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.7 Bassmanagement: virtueller Subwoofer . . . . . . . . . . . . . . . . . . . . . . . . 5.2.8 Parallelen und Gegensätze zwischen raum- und kopfbezogenen Mischungen . . . 5.2.9 Überlegungen zu Rock/Pop/Jazz . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3 Tipps für die Einbindung in die DAW . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4 Design eines VST Plugins . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4.1 Entwurf eines idealen Plugins . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5 Betrachtungen zum Hörbild / Ästhetische Betrachtungen . . . . . . . . . . . . . . . . . 5.5.1 Auswirkungen auf die Wahrnehmung des Tonsatzes . . . . . . . . . . . . . . . . . 5.5.2 Umhüllung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5.3 Position des Hörers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5.4 In-Kopf-Lokalisation (IKL) als kreatives Element innerhalb einer Mischung . . . 5.5.5 Außer-Kopf-Lokalisation (AKL) als kreatives Element innerhalb einer Mischung . 5.5.6 Ort und Neue Musik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.6 Beispielmischungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.6.1 R. Murray Schaffer: „Epitaph for Moonlight“ für Chor a capella . . . . . . . . . . 5.6.2 Stereo Inn: „St. John’s“ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.6.3 „Robbi, Tobbi und das heliozentrische Weltbild“ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 50 50 50 51 51 52 52 52 53 53 53 54 54 55 56 57 61 61 61 62 62 62 63 64 64 64 65 Danksagung 67 Literatur 69 Anhang 70 Erklärung 82 2 Abstract In post-production, a polymicrophonic multi-track recording can be transformed into a two-track mix by convoluting the signal of each track with a selected binaural room impulse response. Using headphone reproduction, this two track mix will allow an approach to the original sound field that will be as realistic as a dummy head recording of the same event, while preserving similar possibilities of artistic and creative modifications to the tonmeister as in usual mixes for loudspeaker reproduction. In a listening test with 62 subjects, different binaural mixes and manipulations of the impulse responses were rated. In this test, the proposed method for auralization was rated equal to a usual dummy head recording. Also, it could be shown that real reflection patterns significantly improve sound source localization.. Furthermore, occuring front-back-revearsals can be reduced by using virtual phantom sources. Tips and experiences, as well as instructions for a simple implementation are included. Zusammenfassung Eine Mehrspurproduktion in Polymikrofonie lässt sich bei der Nachbearbeitung durch gezielt vorgenommene Faltungen der Einzelspuren mit binauralen Raumimpulsantworten in eine Zweispurmischung überführen, die bei Kopfhörerwiedergabe ein Hörereignis ermöglicht, das in seiner Realitätsnähe mit einer Kunstkopfaufnahme desselben Schallereignisses vergleichbar ist, dabei aber dem Tonmeister ähnliche künstlerisch-gestalterische Eingriffe wie bei einer Mischung für raumbezogene Wiedergabe bewahrt. In einem Hörvergleich mit 62 Probanden wurden sowohl einzelne angefertigte Mischungen bewertet als auch unterschiedliche Manipulationsmöglichkeiten der Impulsantworten untersucht. Hierbei zeigte sich, dass die vorgestellte Methode zur Auralisation herkömmlicher Aufnahmen gleichwertig mit einer Kunstkopfaufnahme desselben Schallereignisses bewertet wurde. Auch konnte gezeigt werden, dass gemessene binaurale Reflexionsmuster die Ortung deutlich verbessern und auftretende Vorne-Hinten-Vertauschungen durch die Verwendung virtueller Phantomschallquellen minimiert werden können. Hinweise und Erfahrungswerte sowie Anleitungen einer einfachen Implementierung sind der Arbeit beigefügt. 3 Einleitung Während raumbezogene Wiedergabe- und Aufnahmesysteme in den letzten Jahrzehnten wesentlich weiterentwickelt wurden, könnte man im Falle der Binauraltechnik gerechtfertigterweise von einem „Dornröschenschlaf“ sprechen: War der Kunstkopf noch in den 80er Jahren ein beliebtes Werkzeug der Hörspielund Musikproduktion, fristen binaurale Aufnahmen mittlerweile ein Nischendasein. In der Überzeugung, dass dies ebenso bedauerlich wie ungerechtfertigt ist, möchten wir in dieser Arbeit Möglichkeiten aufzeigen und untersuchen, wie gewöhnliche Mehrspuraufnahmen auf einfache und wirkungsvolle Weise in binaurale Mischungen überführt werden können. Als angehende Tonmeister möchten wir dabei sowohl auf technische als auch auf künstlerisch-ästhetische Zusammenhänge eingehen. Mit Hilfe eines Kunstkopfes und eines Studiolautsprechers nahmen wir zu diesem Zweck in zwei Konzertsälen binaurale Raumimpulsantworten auf. Grundlage war dabei die Annahme, dass das natürliche binaurale Reflexionsmuster eines echten Raumes die Ortungsschärfe und Natürlichkeit einer Schallquelle wesentlich unterstützt. Diese Annahme wurde später in einem Hörvergleich überprüft. Die so gewonnenen Impulsantworten konnten auf einfache Weise mit Hilfe von Faltungsalgorithmen auf die Einzelspuren unterschiedlicher Mehrspurproduktionen angewendet werden. Bildlich gesprochen wurden also die Signale der Einzelspuren über virtuelle Lautsprecher in den entsprechenden Konzertsälen wiedergegeben – die hier behandelte und vorgestellte Methode befasst sich also keineswegs mit der Simulation von Abhörräumen, wie dies bereits vielfach implementiert ist, sondern zielt vielmehr darauf ab, eine künstlerisch und ästhetisch befriedigende Interpretation eines Klanggeschehens zu erschaffen. In Vorversuchen mit einzelnen Mischungen stellte es sich bald als Chance gegenüber herkömmlichen binauralen Aufnahmen heraus, dass es aufgrund der nach Ortungsrichtung separierten Platzierung der Schallquellen möglich war, die Signale auf unterschiedliche Weise so zu bearbeiten, dass sie die Ortung in bestimmte Richtungen begünstigen. Dabei konzentrierten wir uns insbesondere auf das Problem der Vorne-Hinten-Vertauschung. Da wir vor allem vor dem Hintergrund von Musikmischungen vorgingen, beschränkten sich alle Bearbeitungen und Untersuchungen auf Schallquellen in der Horizontalebene. Die unterschiedlichen Eingriffsmöglichkeiten wurden ebenfalls in erwähntem Hörvergleich bewertet und werden ausführlich in dieser Arbeit vorgestellt. Für den Rezipierenden und Erschaffenden ergeben sich aus der Herangehensweise zwangsweise ästhetische und praktische Fragestellungen. Da wir diese Arbeit als einen Beitrag von Tonmeistern für Tonmeister verstanden wissen möchten, gehen wir auf diese Zusammenhänge in einem ausführlichen Appendix mit konkreten Beispielen und Anwendungshinweisen ein. 4 1 1.1 1.1.1 Grundlagen Binauraltechnik Natürliche Richtungswahrnehmung Da sich kompliziertere Wellenfelder als Überlagerung mehrerer Schallquellen darstellen lassen, sei zur Erläuterung zunächst auf das menschliche Richtungshören im Falle einer Schallquelle im Freifeld eingegangen. Zusammenfassend lässt sich die Ortung hierbei auf den speziellen Frequenzgang der Ohrsignale sowie interaurale Zeit- und Pegeldifferenzen zurückführen, wobei es aufgrund ihrer Unterschiedlichkeit angebracht ist, die Ortungsmechanismen in Median- und Horizontalebene getrennt zu betrachten. Abbildung 1: Kopfbezogenes Koordinatensystem nach [Blauert 1974] In der Horizontalebene wertet unser Gehör besonders die Unterschiede der am linken und rechten Ohr eintreffenden Signale aus: Bei tiefen Frequenzen, deren Wellenlänge größer ist als der Kopfdurchmesser (unterhalb von etwa 300 Hz), wird der Schall um den Kopf herum gebeugt, d.h. es kommt zu interauralen Laufzeitdifferenzen (ITD = interaural time difference), welche etwa in der Größenordnung 0,2 bis 1,5 ms angesiedelt sind [Toole und Sayers 1965]. Bei Frequenzen etwa ab 1 kHz kommt es durch Reflexion zu Druckstau auf der der Schallquelle zugewandten und zu Schallschatten auf der der Schallquelle abgewandten Seite des Kopfes, d.h. zu interauralen Pegeldifferenzen (IAD = interaural amplitude difference) [Rayleigh, 1907]. Insgesamt sind für die Ortung in der Horizontalebene also Phasen, Pegel- und Frequenzgangunterschiede verantwortlich, die durch unwillkürliche Drehungen des Kopfes noch deutlich präzisiert werden können [Thurlow und Runge 1967]. Den frequenzabhängig unterschiedlichen Ortungsmechanismen wird durch die verschiedenen Stereomikrofonierungstechniken Laufzeit- und Intensitätsstereophonie Rechnung getragen, wobei Trennkörpermikrophontechniken (OSS, Clara), welche abermals eng mit der Kunstkopftechnik verwandt sind, am ehesten zwischen beiden eine Brücke zu schlagen vermögen. Ein weiter wichtiger Faktor beim menschlichen Richtungshören ergibt sich aus den Bündelungen der Ohrmuscheln und den daraus resultierenden Klangverfärbungen. Diese sind für die Vorne-/Hinten-Ortung sowie die Ortung in der Vertikalebene (Medianebene) von entscheidender Bedeutung. Die vom Winkel des Schalleinfalles abhängige Schallübertragung am Eingang des Gehörganges wird zusammenfassend als kopfbezogene Übertragungsfunktion (Head Related Transfer Function, HRTF) bezeichnet und ist grundlegend von Shaw erforscht worden [Shaw 1982]. Nach Blauert werden bestimmte Frequenzbereiche bei Beschallung mit schmalbandigem Rauschen bevorzugt bestimmten Richtungen in der Medianebene zugeordnet [Blauert 1974]. Diese Frequenzbereiche werden als „richtungsbestimmende Bänder“ bezeichnet (Näheres hierzu s. 2.5, Systemoptimierung). Dabei kann das Gehirn zwischen der Klangfarbe der Schallquelle einerseits und den richtungsbestimmenden Klangverfärbungen andererseits unterscheiden. Das setzt jedoch voraus, dass der Klang bekannt 5 Abbildung 2: Richtungsbestimmende Bänder nach [Blauert 1974] oder einzuordnen sein muss [Blauert 1974], [Rumsey 2001]. Daher kommt es bei Signalen, die im natürlichen Umfeld des Menschen nicht oder nur selten auftreten, häufig zur Richtungsinversion oder Fehlortung. Signale mit breitbandigem Frequenzgang können dagegen vom Menschen leicht geortet werden. Nach Schirmer spielt des weiteren bei bestimmten Frequenzen auch der Oberkörper für die Richtungswahrnehmung eine Rolle [Schirmer 1970]. 1.1.2 Kopfbezogene Stereophonie Ausgangspunkt der kopfbezogenen Stereophonie ist die Annahme, dass das Gehör ohnehin nur zwei Eingänge besitzt, nämlich die beiden Trommelfelle. Alle Informationen, die beim Hörer zur Bildung eines Hörbildes führen, d.h. zu Aussagen über das Schallfeld und seine Geometrie, müssen dementsprechend in den Signalen an den Trommelfellen enthalten sein [Plenge et al. 1969]. Es genügt also die Nachbildung der Ohrsignale. Daher wird dieses Verfahren auch als dichotische oder binaurale (also getrenntohrige) Übertragung bezeichnet. Anders ausgedrückt könnte man sagen, die Kunstkopfstereophonie greift in der Kette Schallfeld - Außenohr - Innenohr hinter dem Außenohr ein. Der Kunstkopf ist dementsprechend die künstliche Nachbildung eines menschlichen Kopfes, in dessen Gehörgänge Mikrofone (Druckempfänger) eingesetzt sind. Verbreitete Kunstköpfe sind etwa Neumann KU100, Knowles Electronic KEMAR, Brüel & Kjær A/S, Head Acoustics HMS und HSUl, Cortex Electronic MK1 u.a.. In einigen Fällen findet sich des weiteren ein angedeuteter Rumpf. Somit ist eine Nachbildung der für die Ortung in der Horizontalebene wichtigen Elemente gewährleistet. Durch die Nachbildung der Ohrmuscheln (gewissermaßen durch das Erstellen eines „Norm-Ohres“) wird die Außenohrübertragungsfunktion nachgebildet, die, wie zuvor erwähnt, für die Richtungswahrnehmung in der Medianebene und die Vorne-/Hinten-Ortung von entscheidender Bedeutung ist. Dies wird unter anderem durch die Experimente von Freedman und Fisher unterstrichen, wonach die Richtungswahrnehmung bei der Kunstkopfstereophonie ohne Nachbildung einer Ohrmuschel erwartungsgemäß deutlich verschlechtert ist [Freedman und Fisher 1968]. Beim Kunstkopf stellt sich somit für jede beliebige Schalleinfallsrichtung „jeweils die richtige Übertragungsfunktion ein“ [Blauert 1974]. Die Wiedergabe erfolgt prinzipbedingt über Kopfhörer, damit die Richtwirkung der Ohrmuschel nicht erneut zur Geltung kommen kann. Es ist daher die „Methode mit Kopfhörerwiedergabe“ [Blauert 1974]. Nach [Plenge et al. 1969] ist das erneute Durchlaufen des Ohrkanals, welches ebenfalls eine Frequenzgangsänderung zur Folge hat, dabei zu vernachlässigen. Der Gehörsinn scheint sich diesen zeitinvarianten Veränderungen anpassen zu können. 1.1.3 Betrachtungen zur Kompatibilität raumbezogener und kopfbezogener Systeme Bei der Wiedergabe raumbezogener Signale über Kopfhörer ergeben sich nach [Theile 1984] die folgenden Probleme: – Raumbezogene Signale enthalten selbst keine kodierte räumliche Information, welche auf zuvor erläuterte Weise beim natürlichen Hören bzw. der Binauraltechnik erreicht wird. – Da das Außenohr durch das Aufsetzen des Kopfhörers unwirksam ist, werden lediglich die Positionen der beiden Kopfhörerkapseln vom Gehirn erkannt. Es kommt somit zur In-Kopf-Lokalisation (IKL), d.h. zu Phantomschallquellen im Kopf. 6 Umgekehrt lässt sich zur Wiedergabe kopfbezogener Signale über Lautsprecher folgendes anmerken: – Lediglich die Positionen der beiden Lautsprecher können vom Gehirn bestimmt werden. – Somit kann die ursprünglich im Signal des Kunstkopfes enthaltene räumliche Information vom Gehirn nicht dekodiert werden. Die Aufnahme weist nun hörbare klangliche Verfärbungen auf. Die hier auftretenden klanglichen Verfärbungen können jedoch nach Theile minimiert werden, wenn statt der Freifeldentzerrung die Diffusfeldentzerrung für den Kunstkopf gewählt wird, so wie dies bei den meisten Studiomikrophonen der Fall ist. Auf diese Weise kann eine erhöhte Lautsprecherkompatibilität erreicht werden. Dies hat folgende Gründe: – Durch die Diffusfeldentzerrung wird der Einfluss der Richtcharakteristik des Kunstkopfes auf die Klangfarbe minimiert, da die Summe aller richtungsspezifischen linearen Verzerrungen entzerrt wird (es wird gewissermaßen das Integral gebildet). Aus diesem Grund empfiehlt Theile auch die Verwendung eines IRT-diffusfeldentzerrten Kopfhörers, da die Kopfhörerübertragungsfunktion die Außenohrübertragungsfunktion im Diffusfeld korrekt abbilden können sollte. – Unter normalen Bedingungen bei der Aufnahme, d.h. in Räumen, in denen die Nachhallzeit nicht extrem klein und somit der Hallradius nicht sehr groß ist, spielt außerdem - schon bei kleinem Abstand zur Schallquelle - der Diffusfeldfrequenzgang eines Mikrophons eine erhöhte Rolle. Gerade der Kunstkopf wird im Allgemeinen in größerem Abstand zur Schallquelle aufgestellt, als dies bei Mikrophonen in Polymikrophonie der Fall ist. – In Konzertsälen ist der Klangeindruck wesentlich durch die Frequenzabhängigkeit der Nachhallzeit bestimmt. 1.1.4 Systembedingte Probleme – Die HRTFs unterschiedlicher Personen sind – trotz einiger grundsätzlicher Gemeinsamkeiten - sehr verschieden. Kommerzielle binaurale Systeme, die für eine breite Masse unterschiedlicher Anwender gedacht sind, scheitern oftmals an dieser Tatsache. 1995 führten Møller et al. eine Messreihe mit 40 Personen durch. Dabei stellten sie fest, dass die unterschiedlichen HRTFs bis zu einer Frequenz von ca. 8 kHz einander recht ähnlich waren. Oberhalb dieser Frequenz fand man zwar generelle Übereinstimmungen, eine Mittelung aller Kurven führte jedoch zur unbrauchbaren Abflachung derselben [Møller et al. 1995]. – Durch die unterschiedlichen individuellen HRTFs kommt es vor allem zu Vorne-Hinten-Vertauschung. Schon [Rayleigh 1907] stellte diese Richtungsinversionen fest. Die Gründe hierfür sind die identischen interauralen Laufzeit- und Pegeldifferenzen bei Schalleinfall von vorne bzw. hinten. Als „in cone“-Fehler bezeichnet man des weiteren Vertauschungen, die innerhalb des Kegels gleicher ITDs und IADs um den Hörer geschehen. – Schallquellen erscheinen bei der Wiedergabe binauraler Signale häufig gespreizt („hole in the middle“, vgl. [Griesinger 1988]) und leicht eleviert. 7 – Kopfbewegungen, die, wie zuvor erwähnt, zur Präzisierung der räumlichen Wahrnehmung führen, sind schwer in ein Wiedergabesystem einbindbar, auch wenn es hier natürlich mit Head Tracking Systemen in neuerer Zeit Fortschritte gegeben hat. Head Tracking bezeichnet eine Technik, bei der die Kopfbewegungen des Zuhörers vom Wiedergabesystem überwacht und in die Wiedergabe eingebunden werden. Dies bedeutet in der Praxis, dass die verwendete HRTF kontinuierlich auf den jeweils aktuellen Stand gebracht werden muss. Nach [Lentz et al. 2007] sollte diese Aktualisierung nicht länger als 35 ms dauern, abhängig von der Art der abgebildeten Schallquelle. Head Tracking kann besonders hilfreich sein zur Verhinderung der Vorne-Hinten-Richtungsinversion, da durch die Kopfbewegungen interaurale Zeit- und Pegeldifferenzen eine zusätzliche Rolle spielen. Mit Head Tracking kann daher die Ortungsgenauigkeit, die ein bestimmtes System hervorruft, enorm erhöht werden. – Bei der Wiedergabe von kopfbezogenen Signalen fehlen visuelle Informationen, die beim natürlichen Hören die Ortung unterstützen. – Kopfhörer haben unterschiedliche Frequenzgänge und Entzerrungen, was zu missverständlichen Wahrnehmungen führen kann [vgl. Theile 1984]. – Verwendet man anstelle eines Kunstkopfes den Kopf einer Versuchsperson, so ist die erzielte Ortungsgenauigkeit zwar unter Umständen höher [vgl. Minnaar et al. 2001], man hat jedoch gleichzeitig mit den Bewegungen, d.h. der sich ändernden HRTF und Geräuschen der Versuchsperson zu kämpfen [Blauert 1974]. 8 1.2 1.2.1 Lineare Systeme Allgemeine Anmerkungen Grundlage für die Bearbeitung digitaler Audiosignale mit den für die Richtungswahrnehmung ausschlaggebenden binauralen Raumimpulsantworten bilden die Eigenschaften der sogenannten „linearen zeitinvarianten Systeme“, im Englischen als „linear time-invariant systems“ bezeichnet – kurz: LTI-Systeme. Zahlreiche verschiedene Vorgänge in der Akustik und in der Tonstudiotechnik lassen sich auf diese Weise eindeutig beschreiben. Darüber hinaus ist es möglich, jedes LTI-System, dessen Übertragungsfunktion einmal in Form einer Impulsantwort festgehalten wurde, auf digitalem Wege zu reproduzieren. Abbildung 3: LTI-System im Zeitbereich Als LTI-Systeme bezeichnet man diejenigen Übertragungssysteme, die bei der Überführung eines gegebenen Zeitsignals s(t) in eine Systemantwort g(t) lediglich lineare Verzerrungen hervorrufen. Als linear gelten Verzerrungen, bei denen nur die bereits vorhandenen Komponenten des Spektrums in ihrer Amplitude oder in ihrer Phasenlage verändert werden. Als lineare Systeme beschreiben lassen sich beispielsweise Pegelsteller, Equalizer, Filter, Kabel oder auch die Reflexionsmuster realer Räume. Nichtlineare Systeme erzeugen im Gegensatz dazu neue spektrale Komponenten, die zuvor nicht zwingend vorhanden waren. So entstehen zum Beispiel bei Klirrverzerrungen zusätzliche Obertöne (k2, k3, k4... oder k3, k5...). Verzerrungen, die durch ein solches System hervorgerufen werden, nennt man dementsprechend „nicht-lineare Verzerrungen“. Prinzipiell können Veränderungen, die durch ein lineares Übertragungssystem bewirkt werden, ohne Kenntnis des ursprünglichen Signals – wenngleich in gewissen Grenzen – wieder rückgängig gemacht werden, während dies bei nichtlinearen Verzerrungen nicht mehr ohne Weiteres möglich ist. Die komplexe Übertragungsfunktion H(f ) eines LTI-Systems im Frequenzbereich ergibt sich aus dem Verhältnis von Ausgangs- und Eingangsspektrum [vgl. Vorländer 2008]: H(f ) = G(f ) S(f ) Dabei enthält H(f ) sowohl Informationen über Pegelverhältnis als auch über Phasenlage/Laufzeit der jeweiligen Frequenz. 1.2.2 Impulsantwort Das Übertragungsverhalten eines LTI-Systems kann mitunter sehr komplexe Gestalt annehmen. Während es bei gewöhnlichen Filtern noch möglich ist, das Übertragungsverhalten mit Hilfe mathematischer Zusammenhänge zu beschreiben, gibt es in der Praxis jedoch eine Vielzahl realer LTI-Systeme, bei denen eine rechnerisch exakte Beschreibung der Übertragungsfunktion unmöglich ist. So stößt man beispielsweise bald an Grenzen, wenn man versucht, hochkomplizierte Filter, wie das Übertragungsverhalten eines Raumes zwischen zwei Punkten oder gar eine Außenohrübertragungsfunktion (HRTF), mathematisch zu beschreiben. Dennoch ist es möglich, jedes noch so komplexe LTI-System messtechnisch exakt zu erfassen und damit sein Übertragungsverhalten reproduzierbar zu machen. Eine besondere Art der Anregung, die man sich zu diesem Zweck zunutze macht, ist der Dirac-Impuls. 9 Man stelle sich hierfür zunächst ein beliebiges Zeitsignal s(t) vor, das durch eine Folge von Rechtecken d(t) der Breite T0 und der Höhe T10 (und damit der Fläche 1) approximiert wird [vgl. Görne 2008]: s(t) ≈ ∞ X s(nT0 ) d (t − nT0 ) T0 n=−∞ Sei nun gd (t) die Antwort des Systems auf einen einzelnen Rechteckimpuls d(t), so lässt sich aufgrund des Superpositionsprinzips und der Zeitinvarianz des Systems dessen Antwort auf s(t) näherungsweise als Summe der einzelnen, gewichteten „Rechteckantworten“ auffassen: g(t) ≈ ∞ X s(nT0 ) gd (t − nT0 ) T0 n=−∞ Im Folgenden wird die Breite T0 der Rechtecke infinitesimal klein. Das Rechtecksignal gd (t) wird damit zu einem Dirac-Impuls δ(t). Die Systemantwort auf ein Rechtecksignal wird zur Systemantwort auf einen Dirac-Impuls, der sogenannten Impulsantwort h(t). Anstelle der Summen-Approximation ergeben sich nun die beiden exakten Integrale: Z ∞ s(τ ) δ(t − τ ) dτ s(t) ≈ −∞ und Z ∞ g(t) ≈ s(τ ) h(t − τ ) dτ −∞ Diese beiden Integrale stellen in ihrer Form die mathematische Operation der Faltung (engl. convolution) dar. Mit Hilfe dieser Faltung lässt sich das Verhalten jedes LTI-Systems mathematisch eindeutig beschreiben. Aus dem ersten Integral geht hervor, dass die Faltung des Eingangssignals s(t) mit einem Diracstoß δ(t) gleich dem Eingangssignal s(t) ist. s(t) = s(t) ∗ δ(t) Anders ausgedrückt bedeutet dies, dass ein Diracstoß an sich die Eigenschaften eines idealen Übertragungssystems im Zeitbereich darstellt, d.h. eines Übertragungssystems, welches das Signal überträgt, ohne es dabei zu verändern. Aus dem zweiten Integral geht hervor, dass sich das Ausgangssignal g(t) eines Systems aus der Faltung des Eingangssignals s(t) mit der Impulsantwort h(t) berechnen lässt. g(t) = s(t) ∗ h(t) Um ein LTI-System zu beschreiben, genügt es demnach, dessen Impulsantwort zu kennen. Sie repräsentiert das Verhalten des Systems im Zeitbereich vollständig. Liegt die Impulsantwort eines Übertragungssystems beispielsweise als Ergebnis einer Messung vor, so lassen sich damit die Übertragungseigenschaften theoretisch auf alle beliebigen Signale anwenden. 1.2.3 Fourier-Transformation LTI-Systeme können jedoch nicht nur im Zeitbereich beschrieben werden. Mit Hilfe der FourierTransformation ist es möglich, ein Zeitsignal in eine gleichwertige Spektraldarstellung umzuwandeln. Der eingangs erwähnte komplexe Übertragungsfaktor H(f ), der das LTI-System im Frequenzbereich repräsentiert, also als eine Funktion der Frequenz, lässt sich aus der Impulsantwort h(t) wie folgt berechnen [ebd.]: 10 Z ∞ h(t)e−j2πf t dt H(f ) = −∞ oder H(f ) = =(h(t)) Ebenso ist es möglich, aus einem vorhandenen Frequenz-/Phasen-Spektrum wiederum eine entsprechende Impulsantwort zu gewinnen: ∞ Z H(f )e−j2πf t df h(f ) = −∞ oder h(t) = =−1 (H(f )) Die Fourier-Transformation lässt sich jedoch nicht nur auf Impulsantworten anwenden. Aufgrund der Tatsache, dass sich jedes Zeitsignal durch eine unendlich dichte Folge von Dirac-Stößen approximieren lässt, ist es auch möglich, jedes beliebige Zeitsignal mit Hilfe der Fourier-Transformation im Frequenzbereich darzustellen. Z ∞ s(t)e−j2πf t dt S(f ) = −∞ Im Frequenzbereich kann man ein LTI-System also als eine Multiplikation des Eingangsspektrums S(t) mit dem Übertragungsfrequenzgang H(t) beschreiben [vgl. Vorländer 2008]: G(f ) = S(f ) · H(f ) Abbildung 4: LTI-System im Frequenzbereich Diese Multiplikation der Frequenzspektren entspricht demselben Vorgang, der im Zeitbereich mit Hilfe der Faltung bewerkstelligt wurde. Durch eine inverse Fourier-Transformation lässt sich G(f ) wieder in das entsprechende Zeitsignal g(t) umwandeln. 1.2.4 Diskrete Faltung, schnelle Faltung In der Audio-Signalverarbeitung haben wir es meist mit digitalen (also zeitdiskreten) Signalen zu tun. Dies entspricht einer gewichteten Folge von Dirac-Stößen δ(t). Um die Faltung mit einer (ebenfalls zeitdiskret vorliegenden) Impulsantwort h(t) zu realisieren, wird daher anstelle der Integration die Summation verwendet [vgl. Görne 2008]: y(n) = ∞ X x(k) h(n − k) k=−∞ Impulsantworten, die in der Theorie unendlich lang sind (vgl. Summationsindex k = −∞...∞), müssen in der Praxis jedoch zwangsläufig auf eine sinnvolle Länge gekürzt werden. In der digitalen Audiotechnik beläuft sich eine Impulsantwort – je nach Art des Systems – in der Regel auf eine Dauer von wenigen Samples bei einfachen Filtern bis hin zu einigen Sekunden bei Faltungshall-Anwendungen, ehe das Signal im Grundrauschen versinkt oder dauerhaft digital 0 erreicht. Die einfachste Art, die diskrete Faltung zu realisieren, ist die Implementierung als sogenanntes „FIRFilter“ (FIR: finite impulse response). Die folgende Abbildung zeigt die Struktur eines solchen Filters: 11 Abbildung 5: Schema eines FIR-Filters [vgl. Vorländer 2008] Hier durchläuft das Eingangssignal x(n) nacheinander eine Reihe von Verzögerungsgliedern z −1 . Während das Signal mit jedem Taktzyklus um eine Position weiter nach rechts wandert, erfolgt im gleichen Schritt eine Multiplikation jedes Samples mit einem entsprechenden Gewichtungsfaktor b0 ...bn . Die Ergebnisse aller Multiplikationen werden sodann aufsummiert und bilden das Ausgangssignal y(n). Die Faktoren b0 ...bn , die auch als Filterkoeffizienten bezeichnet werden, repräsentieren dabei, als Folge betrachtet, die Impulsantwort des Systems. FIR-Filter eignen sich besonders gut zur Implementierung von Filtern mit sehr kurzer Impulsantwort. Ihr entscheidender Nachteil besteht darin, dass mit zunehmender Anzahl der Filterkoeffizienten die Anzahl der erforderlichen Operationen so immens ansteigt, dass eine Berechnung in Echtzeit selbst für leistungsstarke Rechner nicht mehr möglich ist. Eine wesentlich effizientere Lösung zur Implementierung stellt die schnelle Faltung dar. Hierbei macht man sich die Tatsache zunutze, dass eine Faltung im Zeitbereich einer Multiplikation im Frequenzbereich entspricht. Abbildung 6: Schnelle Faltung Das Eingangssignal wird mit Hilfe eines FFT-Algorithmus (Fast Fourier Transformation) fortlaufend blockweise (je 2n Samples) in den Frequenzbereich transformiert. Die Impulsantwort wird ebenfalls in den Frequenzbereich transformiert. Nun genügt eine einfache Multiplikation der Spektren, um zur FourierTransformierten G(f ) des Ausgangssignals zu gelangen. Das Ausgangssignal selbst wird zuletzt durch eine inverse Fourier-Transformation gewonnen. Der rechnerische Mehraufwand, den die FFT-Implementierung für den Übergang zwischen Zeit- und Frequenzbereich zunächst mit sich bringt, ist bei langen Impulsantworten (ab einigen hundert Samples) bei weitem geringer als der immense Rechenaufwand, den eine FIR-Implementierung hervorriefe. Dank der schnellen Faltung ist es möglich, selbst bei Impulsantworten von mehreren Sekunden Dauer, auf gängigen Rechnersystemen zahlreiche Faltungen gleichzeitig und in Echtzeit vorzunehmen. Da auch bei der Musikmischung mit Hilfe binauraler Raumimpulsantworten stets viele Faltungen gleichzeitig und in Echtzeit benötigt werden, wird in unserer Arbeit im Folgenden ausschließlich die schnelle Faltung zum Einsatz kommen. 12 1.3 Andere binaurale Systeme Das folgende Kapitel beschreibt einige Anwendungen, in denen die Binauraltechnik gegenwärtig zum Einsatz kommt. Nicht zuletzt ist es der rasant voranschreitenden Computer-Technologie zu verdanken, dass es mittlerweile möglich ist, auch sehr komplexe Systeme zu realisieren, deren Umsetzung früher entweder überhaupt nicht oder zumindest nicht unter Echtzeitbedingung möglich gewesen wäre. Alle hier beschriebenen Anwendungen unterscheiden sich jedoch in wesentlichen Punkten von der in dieser Arbeit vorzustellenden Methode der binauralen Synthese. 1.3.1 Binaurale Simulation eines Abhörraums Bereits Ende der 1990er Jahre wurde vom Institut für Rundfunktechnik (IRT) und der Firma Studer unter dem Namen „Binaural room scanning“ ein Verfahren entwickelt, das es erlaubt, mit Hilfe binauraler Raumimpulsantworten über Kopfhörer virtuelle Lautsprecheranordnungen zu simulieren [vgl. Mackensen, Felderhoff et al. 1999]. Hierfür werden zunächst mit einem Kunstkopf in einem realen Raum – beispielsweise einem Regieraum – für jeden Lautsprecher binaurale Raumimpulsantworten gemessen. In einem Signalprozessor werden eingehende Audiosignale mit den entsprechenden LautsprecherImpulsantworten gefaltet und über Kopfhörer wiedergegeben. Die zu bearbeitenden Audiosignale können mehrkanalig, sowohl in Stereo als auch in Surround, zugeführt werden. Für jeden Lautsprecherkanal ist dabei eine separate Faltung mit der entsprechenden – wohlgemerkt 2-kanaligen – Impulsantwort erforderlich. Es ist mit diesem System prinzipiell möglich, jede beliebige Lautsprecheranordnung zu simulieren. Durch die Verwendung eines Headtrackers ist es zudem möglich, die verwendeten Impulsantworten dynamisch an die Blickrichtung des Hörers anzupassen. Dies hat zur Folge, dass die virtuellen Lautsprecher aus Sicht des Hörers stets ortsstabil bleiben, anstatt mit dessen Bewegungen mitzuwandern. Wie bereits erwähnt, kann durch die Einbeziehung der Kopfbewegungen in das System gegenüber der statischen Anwendung besonders dem Problem der Vorne-Hinten-Vertauschung erheblich entgegengewirkt werden. Das folgende Schema veranschaulicht die Funktionsweise des Systems: Abbildung 7: Binaural Room Scanning [vgl. Studer 2000] Derartige Systeme haben mittlerweile eine gewisse Verbreitung gefunden. Neben Studer BRS finden 13 sich ähnliche Lösungen bei EMT (Phoenix), Fraunhofer Institut (Ensonido) oder Beyerdynamik (Headzone). 1.3.2 Virtuelle Welten Die Simulation virtueller Welten ist ein Gebiet, das mit noch weit höherem technischen Aufwand verbunden ist. Ziel derartiger Projekte ist es, Personen in eine vollständig computergenerierte, möglichst realistische Umgebung zu versetzen. Die Personen sollten die virtuelle Welt im besten Falle mit allen Sinnen erfahren und intuitiv mit ihr interagieren können. Um dies zu bewerkstelligen, registriert das System die Bewegungen des Probanden und reagiert darauf in Echtzeit. Die aufwändige Videoprojektion auf mehrere Leinwände, von denen die Versuchsperson umgeben ist, und der Gebrauch von 3D-Brillen erzeugen einen plastischen Eindruck, der dem Probanden das Gefühl vermittelt, sich in einer echten Umgebung zu bewegen. Ein Beispiel hierfür ist das CAVE-Projekt an der RWTH Aachen. Um das Ziel einer möglichst hohen Realitätstreue zu erreichen, bedarf es jedoch auch der Schaffung einer virtuellen Akustik, die den Agierenden ebenso vollständig umgibt, wie es ihm sein visueller Eindruck vermittelt. Bei der Umsetzung dieser Idee finden häufig binaurale Signale Verwendung, jedoch können dabei auch andere Wiedergabeverfahren wie die Wellenfeldsynthese zum Einsatz kommen. Ein wesentlicher Bestandteil einer solchen virtuellen Akustik ist die Simulation verschiedener Räume. Mit Hilfe von Raytracing-Verfahren werden in Verbindung mit HRTFs dreidimensionale Reflexionsmuster von Räumen generiert. Die Schallereignisse, mit denen eine Person in der virtuellen Welt konfrontiert wird, können so in einer plastischen, räumlichen Umgebung wahrnehmbar gemacht werden. Mit Hilfe der sogenannten Übersprechkompensation (engl. „crosstalk cancellation“, CTC) können binaurale Signale auch über Lautsprecher wiedergegeben werden. Erfolgt die Übersprechkompensation dabei dynamisch, also unter Zuhilfenahme eines Headtrackers, ist es dem Hörer sogar möglich, sich mehr oder weniger frei vor den Lautsprechern zu bewegen. 1.3.3 Crosstalk Cancellation Eine wesentliche Bedingung für die Wiedergabe binauraler Signale über Lautsprecher ist die saubere Trennung zwischen den Kanälen. Das Signal, das für ein Ohr des Hörers bestimmt ist, darf auch nur dieses Ohr erreichen. Bei einem Kopfhörer ist diese Bedingung per se gegeben, da sich die Membrane unmittelbar vor dem Ohr befindet. Versucht man, ein binaurales Signal mittels einer StereoLautsprecheraufstellung wiederzugeben, so ergibt sich zwangsläufig das Problem des Übersprechens: Abbildung 8: Crosstalk, aus [Vorländer 2008] Um dennoch eine gute Trennung der Kanäle zu bewerkstelligen, müssen die Übersprech-Signalwege (linker Lautsprecher → rechtes Ohr, bzw. rechter Lautsprecher → linkes Ohr) aktiv kompensiert werden. Ihre Übertragungsfunktionen H LR und H RL müssen hierzu bekannt sein. Die Kompensation ihrerseits verursacht jedoch erneutes Übersprechen, das wiederum kompensiert werden muss. Erst durch mehrmaliges Wiederholen dieses Vorgangs kann eine ausreichende Kanaltrennung erreicht werden. 14 Die Iterationen lassen sich nach [Møller 1992] auch in einer expliziten Form ausdrücken: YL = 1 L H RR H RL ·X L − ·X R · H LL · H RR − H LR · H RL H LL · H RR − H LR · H RL | {z } | {z } CT CLL CT CRL Entsprechendes gilt für Y R , so dass sich der ganze Vorgang in folgendem Schema veranschaulichen lässt: Abbildung 9: Crosstalk Cancellation, aus [Vorländer 2008] 1.3.4 Binaural Sky Unter den binauralen Wiedergabeverfahren geht der sogenannte „Binaural Sky“ von [Menzel, Wittek et al. 2005] noch einen Schritt weiter. Dieses System wurde ebenfalls vom Institut für Rundfunktechnik entwickelt. Es kombiniert die binaurale Simulation eines Abhörraumes mit Wellenfeldsynthese und Crosstalk Cancellation. Mit Hilfe eines Rings aus 22 Lautsprechern, der sich oberhalb des Hörers befindet, werden über Wellenfeldsynthese zwei fokussierte Schallquellen in der Nähe des Kopfes erzeugt. Abbildung 10: Binaural Sky, aus [Menzel, Wittek et al. 2005] Diese ersetzen in ihrer Funktion gewissermaßen zwei Lautsprecher. Mittels Headtracker werden Kopfbewegungen registriert, so dass das System die Position der Schallquellen automatisch mitführen kann (rechte Abbildung). Nun werden zusätzlich die Signale, die den beiden Schallquellen zugeführt werden, mit Hilfe der Crosstalk Cancellation von Übersprechen befreit. Da sich die beiden Quellen ohnehin bereits mit dem Hörer mitbewegen, bleibt ihre relative Position zu dessen Ohren immer konstant. Deshalb genügt hier eine lediglich statische Implementierung des CTC-Algorithmus. Aus dieser Anordnung entsteht somit eine Art virtueller Kopfhörer, mit dem es möglich ist, beiden Ohren des Hörers getrennte binaurale Signale zuzuführen. 15 An dieser Stelle kommt nun die zu Anfang des Kapitels beschriebene binaurale Simulation eines virtuellen Abhörraumes zum Einsatz, mit dem Unterschied, dass der echte Kopfhörer nicht mehr benötigt wird, da er vollständig durch den Binaural Sky ersetzt wird. Mit der Technik des Binaural Sky ist es also möglich, eine Abhörumgebung zu schaffen, in der weder echte Lautsprecher das Sichtfeld einschränken noch ein Kopfhörer benötigt wird. 1.3.5 Binaurales Panning Die bis hierher beschriebenen Systeme – mit Ausnahme der Virtual Environment-Anwendungen – setzen die Binauraltechnik ausschließlich wiedergabeseitig ein. Sie erfordern stets ein bereits vorliegendes, „fertiges“ Audio-Produkt, welches sie auf ihre Weise für die Wiedergabe aufbereiten. Während das BRS-Verfahren bereits vorhandene, raumbezogene Stereomischungen nutzt, um sie auf virtuellen Lautsprechern wiederzugeben, und der Kopfhörer damit zum binauralen „Lautsprecherersatz“ wird, geht CTC den umgekehrten Weg, indem es die Wiedergabe von bereits fertigen binauralen Signalen über Lautsprecher ermöglicht und somit wiederum einen „Kopfhörerersatz“ darstellt. Abbildung 11: Binaural Panning in der DAW Logic [www.apple.com] Ein gänzlich anderes Konzept verfolgt das binaurale Panning, wie es zum Beispiel in der DAW Logic implementiert ist (s. Abb. 11). Die Idee des binauralen Pannings besteht darin, schon bei der Mischung von Musik oder anderen Tonaufnahmen, also noch im Produktionsprozess, binaural bearbeitete Signale zu integrieren, die als solche in das Endergebnis, also in den fertigen Stereomix, eingehen. Faltet man einzelne Kanäle mit HRTFs unterschiedlicher Richtung, so lässt sich dadurch jeder Schallquelle ihr jeweils gewünschter Platz im virtuellen Raum zuweisen. Mit der Verwendung des binauralen Pannings in der Mischung wird der Binauraltechnik auch ein künstlerischer Stellenwert zuteil. Ihr Einsatz eröffnet über die rein technische Faszination hinaus dem kreativen Umgang mit der Materie neue Möglichkeiten, und die Art und Weise ihrer Verwendung beeinflusst letztlich auch die ästhetische Qualität des Endergebnisses. Binaurales Panning kommt der im Folgenden vorgestellten Methode am nächsten. Wie wir zeigen werden, ist jedoch auch die Abbildung natürlicher Reflexionsmuster für die Qualität der binauralen Simulation von entscheidender Bedeutung, der beim Konzept des binauralen Pannings mit trockenen HRTFs nicht genüge getan wird. 16 2 Methode Abbildung 12: Prinzip der vorgestellten Methode Abbildung 12 veranschaulicht noch einmal die in der Einleitung bereits umrissene vorzustellende Methode zur Auralisation einer Mehrspuraufnahme. Im Folgenden möchten wir jedem der dargestellten Schritte ein erläuterndes Kapitel zur Seite stellen und dazu ermutigen, zur Verdeutlichung des Gesamtzusammenhanges bei Bedarf zu obiger Grafik zurückzukehren. Es sei im Weiteren zudem von „Binauralisierung“ gesprochen. 2.1 Messung In zwei Konzertsälen der Hochschule für Musik Detmold wurden Impulsantworten gemessen: Im Brahmssaal sowie im 2009 wiedereröffneten Konzerthaus. Der Brahmssaal (Abb. 13) ist ein kleiner Kammermusiksaal in „Schuhschachtel“ - Form mit einem Gesamtvolumen von ca. 800 m³. Nach [Potratz 2005] beträgt seine mittlere Nachhallzeit in leerem Zustand RTmid_Brahmssaal = 1,03 s. Nach [Görne 2008] ermittelt sich der Hallradius des Saales aus r rH = 0.057 · V T zu rH_Brahmssaal = 1,59 m. Das Konzerthaus ist ein Konzertsaal mittlerer Größe mit einem Gesamtvolumen von ca. 2000 m³. Bei einer mittleren Nachhallzeit von RTmid_Konzerthaus = 1,6 s (Messung vom 24.03.2009 der SIAP Acoustic Systems B.V., Uden) in leerem Zustand ergibt sich ein Hallradius von rH_Konzerthaus = 2,02 m. Während der Messung wurde ein Studiolautsprecher Geithain RL901K auf mehreren Kreisbahnen unterschiedlicher Radien um einen Kunstkopf Neumann KU100 in 10 Grad-Schritten bewegt. Es wurden 17 Abbildung 13: Brahmssaal der HfM Detmold Abbildung 14: Konzerthaus der HfM Detmold an jeder Position Chirps mit einer Länge von 23,7 s (entspricht einer Länge von 220 Samples bei einer Samplingfrequenz von 44,1 kHz) über einen Frequenzbereich von 50 Hz - 18 kHz mit einer Auflösung von 24 Bit und 44,1 kHz aufgenommen. Durch die Errechnung der Kreuzkorrelation zwischen dem trockenen und dem aufgenommenen Signal im Programm Magix Sequioa konnte so an jeder Position eine binaurale Raumimpulsantwort (BRIR = binaural room impulse response) gewonnen werden. Neben Impulsantworten in der Horizontalebene nahmen wir an jedem Punkt jeweils auch einen um 45° nach oben und unten elevierten Impuls auf (s. Abb. 15, δ 1 = 45°, δ 2 = 0°, δ 3 = -45°). Dies erreichten wir durch entsprechende Neigung des Kunstkopfes (s. Abb. 16 / Abb. 17). Für weitere Versuche nahmen wir darüber hinaus an jedem Punkt nicht-binaurale Impulsantworten auf. Dies geschah mit Hilfe zweier diffusfeldentzerrter Druckempfänger DPA 4006 im Abstand des Kopfdurchmessers sowie eines am gleichen Ort platzierten, mit einer Druckstaukugel bestückten Neumann KM130. Um den Messaufwand zu halbieren, wurde jeweils nur der linke Halbkreis (also Impulse für 0° ≤ ϕ ≤ 180°) gemessen. Da der Kunstkopf in beiden Fällen auf der Mittelachse des Saales platziert wurde und beide Säle symmetrisch aufgebaut sind, konnten die Impulsantworten der jeweils anderen Kreishälfte anschließend durch Spiegelung, d.h. Vertauschung des linken und rechten Kanals generiert werden. 18 Abbildung 15: Messaufbau Abbildung 16: Kunstkopf während der Messung im Brahmssaal der HfM Detmold 19 Abbildung 17: Kunstkopf während der Messung im Konzerthaus der HfM Detmold Als Kreisradien legten wir für den Brahmssaal 1,5 m (entspricht in etwa rH_Brahmssaal ) und 3 m, für das Konzerthaus 2 m (entspricht in etwa rH_Konzerthaus ), 4 m und 8 m fest. Im Brahmssaal wurden des weiteren zusätzliche Impulse des rechten Halbkreises für r = 3 m und 0° < ϕ ≤ 30° gemessen, um für unsere späteren Versuche mit virtuellen Phantomschallquellen „echte„ Impulsantworten zur Verfügung zu haben (s. 2.4, Probleme der Methode). Auf diese Weise ergaben sich für den Brahmssaal eine Anzahl von 111 und für das Konzerthaus 162 Einzelmessungen. Anschließend wurde der Frequenzgang des Messlautsprechers im reflexionsarmen Raum der HfM Detmold mit einem Messmikrofon Microtech Gefell MK 301 im Abstand von 1 m gemessen. Da der Messaufbau als eine Kopplung mehrerer LTI-Systeme angesehen werden kann, konnte der Frequenzgang des Lautsprechers durch Invertierung aus den Ergebnissen herausgerechnet werden. Die dazu notwendigen Berechnungen wurden ebenso wie die Messung im DOS-basierten Programm Monkey Forest durchgeführt. 2.2 Erfassung und Sortierung der Messdaten Jede der auf diese Weise ermittelten Impulsantworten wurde so gekürzt, dass die Impulse aller Schalleinfallsrichtungen eines Saales phasengleich übereinander lagen. Damit konnte gewährleistet werden, dass bei späterer Faltung zweier korrelierter Signale mit unterschiedlichen Impulsantworten keine Phasenprobleme und damit Kammfilter auftreten würden. Anschließend wurden alle Impulsantworten eines Saales gemeinsam normalisiert, so dass alle Lautstärkeunterschiede erhalten blieben. Vor dem Hintergrund, dass relative Laufzeiten und Pegel zwischen den Impulsantworten (neben dem Reflexionsmuster des Raumes) wichtige Informationen über den Abstand der Schallquelle enthalten, wurde jede Impulsantwort in zweifacher Form aufbereitet: 20 – phasenrichtig und pegelrichtig (die Unterschiede in Laufzeit und Lautstärke wurden beibehalten) sowie – pegelrichtig (die Unterschiede der Lautstärke wurden beibehalten) Die auf diese Weise generierten Impulsantworten wurden als Wave-Dateien in 24 Bit und 44,1 kHz (Stereo) gespeichert. Um eine einfache Sortierung zu ermöglichen, folgte die Benennung dem kopfbezogenen Koordinatensystem nach [Blauert 1974] (s. 1.1, Binauraltechnik) in dem Schema ϕ_δ_r.wav, wobei ϕ für den Seitenwinkel in der Horizontalebene, δ für den Elevationswinkel und r für die Entfernung der Schallquelle (bzw. den Radius des gemessenen Halbkreises) steht. 2.3 Einbindung in die Digital Audio Workstation (DAW) Im Vorfeld wurde in einem nicht repräsentativen ABX-Test unter Kommilitonen ermittelt, ob die Verwendung von schneller – im Vergleich zu diskreter – Faltung hörbare Nachteile mit sich brächte, d.h. die Ortung innerhalb der binauralen Synthese in irgendeiner Weise beeinträchtigte. Da keiner der Testpersonen die beiden Verfahren unterscheiden konnte, wurde auf eine weitere Untersuchung verzichtet und ab diesem Zeitpunkt mit schneller Faltung (fast convolution) gearbeitet. Dieses Ergebnis deckt sich mit [Kulkarni und Colburn 1995, 1998] sowie mit [Hammershøi und Møller 2005]. Alle folgenden Versuche und Mischungen wurden in der DAW Sequoia von Magix durchgeführt. Die Faltungen wurden mit Hilfe des dort integrierten „Raumsimulators„ berechnet. Parallel dazu wurde jedoch in Zusammenarbeit mit dem Programmierer Christian Budde ein spezielles VST-Plugin zur Durchführung der Berechnungen sowie der Verwaltung der Daten entwickelt, auf das im erwähnten Appendix näher eingegangen werden soll. Die Einbindung der Impulsantworten folgte dem in [Vorländer 2008] beschriebenen Schema eines „binauralen Mischpultes„ (s. Abb. 18). Dabei wird jede Quelle - z.B. ein Stützmikrofonsignal - mit beiden Kanälen der Impulsantwort gefaltet und die beiden Systemantworten werden (jeweils für das linke und das rechte Ohr) addiert. Auf diese Weise resultiert aus jedem einkanaligen Eingangssignal ein binaurales (zweikanaliges) Ausgangssignal. Da von vornherein lediglich mit LTI-Systemen gearbeitet wurde, gilt das Superpositionsprinzip. Daher können diese binauralen Signale über das Audiomischpult der DAW wie bei einer gewöhnlichen Mischung summiert werden. Abbildung 18: Schema eines binauralen Mischpultes nach [Vorländer 2008] Bei diesem Vorgehen bleiben für den Tonmeister alle Eingriffsmöglichkeiten in die Signalkette erhalten. Dabei ist jedoch darauf Rücksicht zu nehmen, welche Vorgänge als LTI-Systeme beschreibbar sind, wenn nicht in die Funktionsweise der binauralen Synthese bzw. ihre Realitätstreue eingegriffen werden soll. Gerade bei der Verwendung echter Raumimpulsantworten, wie dies von uns vorgestellt wird, lässt sich aus dieser Forderung Folgendes ableiten: 21 – Eingriffe, die linear und zeitinvariant sind, können sowohl vor als auch nach der Faltung mit BRIRs durchgeführt werden, da bei der Verkettung von LTI-Systemen das Kommutativgesetz gilt. Dies betrifft z.B. Pegel, Filter oder Faltungshall. – Eingriffe, die entweder nicht linear oder nicht zeitinvariant sind, sollten im Normalfall vor der Faltung mit BRIRs durchgeführt werden, sofern der Raum oder die HRTF nicht verfremdet oder verändert werden sollen. Dies betrifft unter anderem Dynamikprozessoren, Hall auf der Basis von zeitvarianten Algorithmen sowie bestimmte Effekte wie z.B. Phasing, Chorus oder Verzerrung. Die Auswahl einer für die Faltung zu verwendenden BRIR ersetzt im Fall des binauralen Mischpultes das gewöhnliche Panning. Im Appendix werden wir zeigen, dass es für einige konkrete Anwendungen jedoch nützlich sein kann, nicht-binaurales Panning zur Vorverteilung auf mehrere, bestimmten binauralen Richtungen zugewiesenen Busse zu verwenden. Neben den üblichen Eingriffen in die Signalkette, die auch bei raumbezogenen Mischungen zur Anwendung kommen, hat der Tonmeister im Falle der binauralen Synthese über die Modifikation der Impulsantworten weitergehende Eingriffsmöglichkeiten wie z.B. die Verkürzung des Nachhalls oder die Verstärkung und Absenkung der frühen Reflexionen oder des Direktschalls. In einem nicht repräsentativen Vorversuch mit Kommilitonen wurden die Möglichkeiten miteinander verglichen, die Hallfahne der binauralen Raumimpulsantworten durch eine nicht-binaurale zu ersetzen, oder künstlich zweikanalig verhallte Signale mit binauralen Raumimpulsantworten ohne Hallfahne zu falten. Das deutliche Ergebnis war, dass ein solches zweikanaliges Hallprogramm ohne frühe Reflexionen in beiden Fällen eingesetzt werden kann, vermutlich deshalb, weil die beiden Kanäle der Hallfahne im Normalfall so unkorreliert sind, dass sie eine Ortung des Originalsignales nicht beeinträchtigen. In letzterem Fall wurde durch die Faltung mit der HRTF des Kunstkopfes lediglich eine Verfärbung der Hallfahne wahrgenommen. Die innewohnenden ästhetischen Möglichkeiten und Folgen eines solchen Vorgehens sollten aber in einer weitergehenden Arbeit genauer untersucht werden. Die Auswirkungen echter binauraler Reflexionsmuster und entsprechender Eingriffe in die Impulsantwort wurden, wie bereits erwähnt, in einem späteren Hörvergleich untersucht (s. Kapitel 3, Hörvergleich). Nähere Zusammenhänge werden zudem im Kapitel 2.5 (Systemoptimierung) erläutert. Zusammenfassend könnte man sagen, dass in der vorgestellten Methode zur Binauralisierung von Mehrspurproduktionen Einzelquellen über die Platzierung virtueller Lautsprecher in einem bestimmten zuvor gemessenen Saal binaural wiedergegeben und zusammengeführt werden. Aufgrund der Auswahl bestimmter Lautsprecherpositionen wäre es also zutreffend, im Falle der BRIRs von „virtual panning spots„ zu sprechen. 2.4 Probleme der Methode Wie bereits erwähnt, entsprechen den einzelnen Quellen in Abb. 18 im Falle einer Musikaufnahme klassischer Musik für gewöhnlich die einzelnen Mikrofonsignale. Nehmen wir an, es läge eine Mehrspuraufnahme eines Orchesterkonzertes vor, die nachträglich binauralisiert werden soll. Anhand einzelner typischer Mikrofonsignale einer solchen hypothetischen Aufnahme möchten wir gerne die folgenden Probleme veranschaulichen. 2.4.1 Eindimensional abgebildete Räume In den meisten Fällen enthalten aufgenommene Mikrofonsignale auch Reflexionen oder den Nachhall des Aufnahmeraumes. Anders als bei einer kopfbezogenen Aufnahme geht dabei jedoch die Information über die Richtung der frühen Reflexionen verloren - sie werden also gewissermaßen „eindimensional„ abgebildet. Bei der Wiedergabe über einen virtuellen Lautsprecher, wie dies bei der vorgestellten Methode der 22 Fall ist, werden auch diese Signalanteile aus der Richtung des Messlautsprechers binaural wiedergegeben. Diese eindimensionale Abbildung von Räumen ist bei einer raumbezogenen Mischung weniger störend, da hier auch das Wiedergabesystem den Raum für gewöhnlich nicht vollständig dreidimensional abbildet. Bei der vorgestellten binauralen Synthese jedoch stehen die (dreidimensional abgebildeten) Raumanteile der BRIRs im Widerspruch zu den (eindimensional abgebildeten) Raumanteilen der Mikrofonsignale, was die Realitätstreue deutlich verringert. Dies betrifft - aufgrund ihrer deutlichen räumlichen Verteilung in wirklichen Umgebungen - vor allem die frühen Reflexionen. Betrachten wir im erwähnten Beispiel einer Orchesteraufnahme z.B. die Stützmikrofone der Streicher, die von vielen Tonmeistern so positioniert werden, dass die ganze Gruppe flächig abgebildet wird und keine Einzelspieler zu hören sind. Findet die Aufnahme in einem halligen Konzertsaal oder einer Kirche statt, ist in den Ausgangssignalen dieser Mikrofone erfahrungsgemäß ein starker Raumanteil zu finden. Dieser Raumanteil würde eine realitätsnahe Simulation der Streichergruppe deutlich erschweren. Aus diesem Zusammenhang lässt sich also ableiten, dass die Binauralisierung einer Mehrspuraufnahme umso besser gelingen wird, je trockener die Einzelsignale vorliegen. Zum Problem des Übersprechens siehe auch 2.4.3 und 5.2.4. 2.4.2 Künstlerische Inkompatibilität von Aufnahmeraum und gemessenem Raum Der vorgestellten Methode liegt die Annahme zugrunde, dass die binauralen Reflexionsmuster echter Räume die Qualität und Realitätstreue der Simulation verbessern. In vielen Fällen können diese Eigenschaften des Messraumes aber auf ästhetisch unbefriedigende Weise mit den Eigenschaften des Aufnahmeraumes zusammenwirken (vgl. 2.4.1). Obwohl der Tonmeister durch Hallprogramme oder Eingriffe in die Impulsantwort den Raumeindruck grundsätzlich an das musikalische Programm anpassen kann, sollte im Idealfall aus diesem Grund eine Reihe von unterschiedlichen Messräumen in einer Datenbank zur Verfügung stehen. Auch die nähere Betrachtung und Benennung solcher Kompatibilitätsprobleme und die Untersuchung ihrer Auswirkung wäre Aufgabe einer weiteren Arbeit. 2.4.3 Zusammenfallen des Raumes durch Spiegelung der gemessenen Impulsantworten Da in der vorgestellten Methode lediglich virtuelle Lautsprecher in einer binauralen Simulation positioniert werden, kann es zwischen diesen Lautsprechern bei entsprechender Korrelation der Signale auch zu - in doppeltem Sinne „virtuellen„ - Phantomschallquellen kommen. Dies ist bei der Platzierung von Stereosystemen (AB, ORTF, XY, usw.) natürlich von besonderer Bedeutung. Wird eine solche Lautsprecherbasis symmetrisch um die Medianebene gesetzt, z.B. ϕLautsprecher1 = 30° und ϕLautsprecher2 = -30° in der Horizontalebene, so werden aufgrund der unter 2.1 beschriebenen Ermittlung der zweiten Impulsantwort durch Spiegelung der ersten bei der Wiedergabe über die virtuelle Basis alle im zweikanaligen Eingangssignal enthaltenen Monoanteile tatsächlich monofiziert wiedergegeben, d.h. selbst der Raum mit seinem binauralen Reflexionsmuster wird für diese Signalanteile mono. Im Extremfall einer doppelten Platzierung desselben Signals über zwei derartig angeordnete Lautsprecher (also einer simulierten Monowiedergabe) ergibt sich dementsprechend ein perfektes Monosignal. Da in diesem Fall nicht einmal der Raum interaurale Zeit- oder Pegelunterschiede hervorruft, fällt die komplette Simulation in sich zusammen, und die Färbungen der Kunstkopf-HRTFs werden bei gleichzeitiger In-Kopf-Lokalisation hörbar. Betrachten wir also in unserem Beispiel einer Orchesteraufnahme die Flöten und die Oboen, die bei einer traditionellen Aufstellung links und rechts der Mittelachse sitzen. Aufgrund des Übersprechens zwischen den beiden Stützmikrofonen erscheinen die innen sitzenden Flöte 1 und Oboe 1 bei gewöhnlichen raumbezogenen Mischungen oftmals als Phantomschallquellen innerhalb der gewählten Pan-Positionen. Werden diese Positionen nun binaural simuliert, um die beiden Instrumentengruppen in der Simulation zu platzieren, so werden bei korrelierten Signalanteilen die oben beschriebenen Effekte hervorgerufen. Die Simulation klingt demnach verfärbt, und es kommt zu partieller In-Kopf-Lokalisation. 23 2.4.4 Fehlen eines Headtracking-Systems Wie schon im Kapitel 1.1 (Binauraltechnik) beschrieben, kann die Verwendung eines HeadtrackingSystems die Häufigkeit von Vorne-Hinten-Vertauschungen verringern und zudem die binaurale Simulation deutlich verbessern. Die von uns vorgestellte Methode soll jedoch zunächst ein System zur Erstellung von Zweispurmischungen sein, die von jedem Konsumenten ohne Mehraufwand mit Kopfhörern abgehört werden können. Daher ist ein Headtracking-System von uns zunächst nicht integriert. Nach [Torres et al. 2004] könnte durch Interpolation der Impulsantworten auch auf der Verwendung von echten BRIRs beharrt werden, ohne auf algorithmisch ermittelte Impulsantworten zurückgreifen zu müssen. Dies ist in dem erwähnten, im Rahmen dieser Arbeit entwickelten VST-Plugin bereits der Fall (s. 5., Appendix). Nach [Rychtarikova et al. 2009] können auch mit Hilfe einer entsprechenden Raumsimulationssoftware synthetisch generierte BRIRs zu befriedigenden Ergebnissen führen. Da solche Berechnungen beim heutigen Stand der Technik aber länger als die für Headtracking-Systeme annehmbare Latenz von 35 ms dauerten (s. 1.1, Binauraltechnik), müsste auch in diesem Fall auf eine Datenbank mit einer bestimmten Anzahl an BRIRs zurückgegriffen werden. Da es für den Tonmeister in vielen Fällen wünschenswert sein kann, aus künstlerischen Gründen Eingriffe auch nach Durchführung der Faltungen vorzunehmen (etwa eine nachträgliche Verhallung der Gesamtmischung), wäre eine solche Implementierung aber nicht unproblematisch. Es müsste also entweder einem – speziell auf die jeweilige Mischung ausgerichteten – Wiedergabesystem eine Reihe von umfangreichen Metadaten zur Verfügung gestellt, oder das Headtracking-System schon innerhalb der DAW – und damit in die Mischung selbst – eingebunden werden. Die Möglichkeiten einer solchen Implementierung zu untersuchen oder sogar ein plattformübergreifendes System für unterschiedliche Mischungen zu entwickeln, wäre sicherlich Aufgabe einer weiterführenden Arbeit. 2.4.5 Vernachlässigung spezifischer Richtcharakteristiken der Schallquellen Beinahe jede natürliche Schallquelle - wie z.B. ein Musikinstrument - hat eine komplexe, frequenzabhängige Abstrahlcharakteristik. Hierbei ist Jürgen Meyer die wesentliche systematische Erforschung des charakteristischen Abstrahlverhaltens unterschiedlicher Musikinstrumente zu verdanken [Meyer 1999]. Jedes Stützmikrofon nimmt dabei selektiv das Signal an einem bestimmten Ort in der Nähe des jeweiligen Instrumentes auf – das aufgenommene Signal enthält also keinerlei Information mehr über das ursprüngliche Abstrahlverhalten des Instrumentes. Dieses Problem besteht natürlich auch bei Mischungen für raumbezogene Verfahren und wird vom Tonmeister im Allgemeinen dadurch kompensiert, dass er schon bei der Aufstellung der Stützmikrofone darauf achtet, das jeweilige Instrument in allen Frequenzbereichen gut abbilden zu können. Wie darzustellen sein wird, hat im Falle der nachträglichen Binauralisierung diese erste Vernachlässigung des instrumentenspezifischen Abstrahlverhaltens unter Umständen jedoch weit reichendere Folgen. Wie bereits erwähnt, wurden die Messungen zur Gewinnung der binauralen Raumimpulsantworten mit einem Studiolautsprecher Geithain RL901K durchgeführt. Auch dieser Lautsprecher hat natürlich eine bestimmte Richtcharakteristik, in diesem Falle eine auch im Bassbereich ausgeprägte Nierencharakteristik, die zu hohen Frequenzen hin stark nach vorn bündelt. Wird das Signal des Stützmikrofons nun binaural über diesen virtuellen Lautsprecher wiedergegeben (wie es bei der vorgestellten Methode der Fall ist), so kommt ausschließlich die Richtcharakteristik des Lautsprechers zur Geltung. Anders ausgedrückt erhalten hierbei alle abgebildeten Schallquellen die Richtcharakteristik des Messlautsprechers. An dieser Stelle wird das Abstrahlverhalten des jeweiligen Instrumentes also zum zweiten Mal vernachlässigt. Der zuvor in Kauf genommene klangliche Kompromiss bei der Aufstellung des Stützmikrofons führt nun dazu, dass nicht nur der Höreindruck entsteht, das aufgenommene Instrument strahle mit der Richtcharakterstik des Messlautsprechers ab, sondern dass in der binauralen Simulation sogar nur das zuvor an einem bestimmten Ort um das Instrument vorhandene Signal mit der Richtcharakteristik des Messlautsprechers abgestrahlt wird. Wir vermuten, dass die in Vorversuchen von Kommilitonen mehrfach geäußerte Irritation über die „unnatürliche Kleinheit„ der Schallquellen auf diesen gewissermaßen doppelten 24 Fehler zurückzuführen ist, der besonders auffällt, da im Falle einer binauralen Mischung von den Hörern unserer Erfahrung nach deutlich höhere Anforderungen in Bezug auf die Realitätstreue gestellt werden, als dies bei raumbezogenen Mischungen der Fall wäre. Inwieweit hier ein tatsächlicher Zusammenhang besteht, müsste aber in einer weitergehenden Arbeit untersucht werden. Betrachten wir zur Veranschaulichung die Hornstütze in erwähnter Orchesteraufnahme. Das Horn strahlt zu höheren Frequenzen hin bevorzugt nach hinten in Richtung des Schalltrichters ab. Durch die Richtcharakteristik des Messlautsprechers würde dieses Signal in der binauralen Simulation bevorzugt nach vorne in Richtung des Hörers abgestrahlt werden. Dies könnte zu mehreren Problemen führen: Selbst wenn die Hornstütze in einem virtuellen Bühnenraum platziert würde, fehlten die für das Horn charakteristischen Rückwürfe der Bühnenrückwand. Die Verwendung eines einzelnen Stützmikrofons führte des weiteren vermutlich zu einer klanglichen Verkleinerung der Horngruppe. Dies wäre besonders folgenschwer, da es eine deutliche, nachvollziehbare binaurale Positionierung dieses Signals im gesamten Orchesterklang wesentlich erschwerte. Um das instrumentenspezifische Abstrahlverhalten angemessen binaural modellieren zu können, wären Impulsantworten erforderlich, die sich aus mehrkanaligen Anregungssignalen zusammensetzen. Anstelle eines einzelnen Lautsprechers müsste man den Raum beispielsweise mit Hilfe eines DodekaederMesslautsprechers anregen, wobei die Anregung über alle 12 Flächen einzeln nacheinander zu erfolgen hätte. Die Summe aller 12 Einzelimpulsantworten entspräche dann einer näherungsweisen Kugelcharakteristik der Quelle. Aus diesen Einzelimpulsantworten ließe sich daraufhin durch Gewichtung und Filterung unter Berücksichtigung der Abstrahlcharakteristik des gewünschten Instruments eine diesbezüglich weitaus realistischere Impulsantwort zusammensetzen. Für die Modellierung von Schallquellen mit komplexer Richtcharakteristik für Auralisationsverfahren sei darüber hinaus auf [Vorländer 2008] verwiesen. Bei einer Binauralisierung in der vorgestellten Form treten zu den Problemen der Methode natürlich die unter 1.1.4 gelisteten systembedingten Probleme hinzu, so dass alle Versuche einer möglichen Systemoptimierung an beiden Stellen eingreifen können. 25 2.5 Systemoptimierung Das folgende Kapitel beschreibt Möglichkeiten zur Optimierung der zuvor geschilderten Probleme, die sich bei der Arbeit mit binauralen Impulsantworten ergeben. Bei den hier aufgezeigten Vorgehensweisen handelt es sich zunächst allerdings um rein hypothetische Vorschläge von Methoden, mit deren Hilfe sich die Wirkung binauraler Raumimpulsantworten diesbezüglich positiv beeinflussen lässt. Das Hauptaugenmerk richtet sich dabei auf eine verbesserte Vorne-/Hinten-Lokalisation sowie eine ebenfalls anzustrebende, verbesserte Außer-Kopf-Lokalisation. Der Hörvergleich, der im Rahmen dieser Arbeit durchgeführt wurde und im Anschluss an dieses Kapitel beschrieben wird, verfolgte als ein maßgebliches Ziel, einige dieser Möglichkeiten empirisch auf ihre Wirksamkeit hin zu überprüfen. 2.5.1 Spreizung Das Phänomen der Spreizung (s. 1.1.4, Systembedingte Probleme), wie es bei nahezu allen Hörern in mehr oder weniger starkem Maße auftritt, rückt im Hinblick auf das praktische Ergebnis einer Musikmischung nicht so gravierend in den Vordergrund, wie man es zunächst annehmen könnte. Der Grund hierfür liegt in der Vorgehensweise bei der Musikmischung selbst, die sich in der Praxis in erster Linie nach dem tatsächlichen klanglichen Ergebnis richtet. Da Schallquellen in der Horizontalebene außerhalb der 0° bzw. 180° Richtung der Tendenz nach von fast allen Hörern zu weit seitlich, also hin zur 90°-Richtung verschoben, wahrgenommen werden, kann davon ausgegangen werden, dass auch die am Mischvorgang beteiligten Personen in der Regel diesem Phänomen entweder unbewusst oder bewusst dadurch gegensteuern werden, dass sie für einen bestimmten Winkel die klanglich, d.h. ortungsmäßig korrekte Impulsantwort der tatsächlich gemessenen vorziehen werden. In einem Plugin wäre es selbstverständlich ohne weiteres möglich, dieses Problem unmittelbar auszugleichen, indem die Zuordnung der gewünschten Richtungen direkt zu den klanglich entsprechenden Impulsantworten erfolgt anstatt zu den tatsächlich unter dem jeweiligen Winkel gemessenen. Hierfür müsste allerdings in einem weiteren empirischen Hörversuch eine Art mittlere Korrekturfunktion ermittelt werden, mit deren Hilfe der Spreizungsfehler für möglichst viele Hörer auf ein akzeptables Maß reduziert würde. Hierauf soll in dieser Arbeit jedoch nicht weiter eingegangen werden. Eine andere Methode, diesem Problem zu begegnen, wird von [Lee et al. 2003] vorgeschlagen. Mit Hilfe einer „Directional-Weighting Function“, die bewirkt, dass Signale im vorderen Bereich mehr Energie erhalten, wird versucht, das sogenannte „Loch in der Mitte“ auszufüllen. 2.5.2 Modifikation der Impulsantworten Blauertsche Bänder Wie bereits unter Kapitel 1.1.1 (Natürliche Richtungswahrnehmung) beschrieben, ist es für das menschliche Gehör besonders schwierig zu entscheiden, ob ein Stimulus von vorne oder hinten erklingt, da für dieses Kriterium weder eine Laufzeit- noch eine Pegeldifferenz zwischen den beiden Ohren zu Rate gezogen werden kann. Nach Untersuchungen, die Blauert in den Jahren 1968 bis 1970 durchführte, existieren bestimmte, definierte Frequenzbereiche, die maßgeblich Verantwortung dafür tragen, ob ein Stimulus von vorn oder von hinten wahrgenommen wird [vgl. Blauert 1974]. Dies sind die sogenannten „richtungsbestimmenden Bänder“ oder „Blauertschen Bänder“ (vgl. Kapitel 1.1.1, Natürliche Richtungswahrnehmung). In Hörversuchen untersuchte Blauert an mehreren Probanden mit Hilfe von isoliert über Lautsprecher vorgespielten schmalbandigen Rauschsignalen den spontanen Richtungseindruck der Hörer. Dabei stellte sich heraus, dass bestimmte Signale in Abhängigkeit von ihrer Mittenfrequenz spontan bevorzugt eher von vorne oder eher von hinten geortet wurden. Die folgende Grafik zeigt die statistische relative Häufigkeit, mit welcher die Testpersonen im Versuch dem Schallereignis einer jeweiligen Frequenz eine bestimmte Richtung zuwiesen. Denkbar wäre also zu versuchen, binaurale Raumimpulsantworten in Bezug auf die Vorne-/Hinten26 Abbildung 19: Blauertsche Bänder: Häufigkeitsverteilung aus [Blauert 1974] Ortbarkeit mit Hilfe der Blauertschen Bänder zu optimieren. Hierbei wäre es eine Möglichkeit, mittels eines Equalizers bei Signalen, die mit einer Impulsantwort für den vorderen Bereich gefaltet wurden, die entsprechenden Blauertschen Bänder anzuheben oder abzusenken. Binaurale Signale, deren Tendenz nach vorne oder hinten zuvor schwierig zu unterscheiden war, sollten somit deutlicher ortbar werden. Obige Grafik zeigt lediglich die Häufigkeit, mit der verschiedene Hörer ein Terzband-Rauschen einer entsprechenden Mittenfrequenz spontan „vorne“ oder „hinten“ orteten. Damit sagt die Kurve noch nichts über die optimale Mittenfrequenz und Güte eines zu applizierenden Filters aus. Blauert zeigte jedoch in einem weiteren Versuch [ebd.], dass die richtungsbestimmenden Bänder sehr wohl mit den charakteristischen Frequenzgang-Eigenschaften der Außenohr-Übertragungsfunktion korrespondieren. Für den Entwurf eines Filters kann der Verlauf dieser Kurven damit zumindest einen ersten guten Anhaltspunkt geben. Eine Filtereinstellung zu finden, die die entsprechende binaurale Raumimpulsantwort auf ihre Vorne-/Hinten-Lokalisierbarkeit hin optimal unterstützt, würde weitere, umfangreiche Hörversuche erfordern, für die im Rahmen dieser Arbeit jedoch kein Platz sein konnte. Direktsignal-/Reflexionsanteil Wie jede Raumimpulsantwort setzt sich auch eine BRIR in ihrem zeitlichen Verlauf aus drei wesentlichen Komponenten zusammen: 1. Direktsignal: Der erste Impuls repräsentiert das von den Eigenschaften des Raumes vollkommen unabhängige, trockene Schallereignis. Damit stellt er die eigentliche HRTF dar. Als isolierter Impuls enthält das Direktsignal interaurale Laufzeit- und Pegeldifferenzen sowie die außenohrspezifischen Frequenzgänge. Faltet man ein beliebiges Signal mit diesem separaten Impuls, so erhält es eine binaurale Richtungsinformation. Es entspräche damit theoretisch einem im Freifeld unter derselben Richtung wiedergegebenen Signal. 2. Frühe Reflexionen: Der entscheidende Raumeindruck entsteht durch die ersten Rückwürfe von den Wänden. Ihr Abstand zum Direktsignal, ihre zeitliche Dichte und Struktur sowie ihre Klangfarbe entscheiden über die empfundene Charakteristik eines Raumes. In binauralen Raumimpulsantworten sind auch diese frühen Reflexionen ihrer jeweiligen Einfallsrichtung entsprechend festgehalten. Zu den frühen Reflexionen rechnet man im Allgemeinen diejenigen Reflexionen, die beim Hörer innerhalb der ersten ca. 60-100 ms eintreffen. 3. Nachhall: mit zunehmender Dichte gehen die frühen Reflexionen allmählich in den Nachhall über. Die Länge des Nachhalls und seine Klangfarbe geben ebenfalls einen Anhaltspunkt über die Größe des Raumes und die Beschaffenheit seiner Wandflächen. Der diffuse Nachhall ist jedoch rein statistischer Natur. Für die Ohren liefert er lediglich vergleichsweise unkorrelierte Signale ohne Richtungsinformation. Auf die Ortbarkeit eines Schallereignisses 27 übt er somit keinen Einfluss aus. Abbildung 20: Prinzipieller Aufbau einer Raumimpulsantwort Eingangs wurde die Vermutung geäußert, dass die Ortbarkeit und die Natürlichkeit binauraler Signale durch das Vorhandensein eines realen Reflexionsmusters in hohem Maße begünstigt werden. Nun ist es möglich, die binauralen Raumimpulsantworten mit Hilfe einer Hüllkurvenfunktion derart zu verändern, dass der Anteil der frühen Reflexionen gegenüber dem Direktschall zusätzlich erhöht oder abgesenkt wird. Interessant wäre dabei herauszufinden, ob sich durch eine derartige Manipulation der Impulsantwort zusätzlich eine Verbesserung der Ortbarkeit erzielen ließe. Anders ausgedrückt stellt sich damit die Frage nach dem optimalen Pegelverhältnis zwischen Direktschall und frühen Reflexionen. 2.5.3 Ersetzen von Einzelschallquellen durch Phantomschallquellen Speziell bei der Verwendung der 0° bzw. 180°-Impulsantworten erweist sich eine klare Außer-KopfOrtung als besonderes Problem. An dieser Stelle wäre zu überlegen, ob es eine Möglichkeit gibt, mit welcher sich die Verwendung solcher Impulsantworten gezielt umgehen lässt, dabei Schallquellen aber dennoch an ebendiesen Positionen lokalisierbar gemacht werden können. Eine interessante Option stellt hier die Verwendung von Phantomschallquellen dar. Mittels einer virtuellen Stereobasis werden alle Einzelschallquellen, die aus diesen kritischen Richtungen abgebildet werden sollen, als Phantomquellen zwischen einer virtuellen Lautsprecherbasis realisiert. Diese Basis wird jeweils durch ein Paar von Impulsantworten gebildet, die an sich aufgrund der weiter außen liegenden Positionen eine wesentlich bessere Lokalisierbarkeit gewährleisten (ϕ=+/-30° bzw. ϕ=+/-150°, vgl. 3.2.1). Um eine Schallquelle zu erhalten, die aus der 0°-Richtung wahrgenommen wird, wird das Signal also jeweils mit gleichem Pegel auf die beiden Kanäle für ϕ=+30° und ϕ=-30° gegeben. 2.5.4 Resampling von Impulsantworten Wie schon unter Kapitel 2.4.3 dargestellt, kommt es aufgrund der gespiegelten BRIRs bei der Wiedergabe zweier Signale über eine virtuelle Stereobasis zu einer perfekten Mono-Wiedergabe der korrelierten Signalanteile. Dies ist bei der vorgeschlagenen Verwendung von virtuellen Phantomschallquellen natürlich von besonderer Bedeutung. Es lässt sich also die Forderung stellen, dass die für eine virtuelle Stereobasis eingesetzten Impulsantworten untereinander ein gewisses Maß an Dekorrelation aufweisen müssen, die der vergleichbaren Situation in einem natürlichen Raum entspricht. Soll zur Reduzierung des Messaufwands die Methode der Spiegelung beibehalten werden, empfiehlt sich ein weiterer Eingriff in die gespiegelte BRIR, um dieses Ziel zu erreichen: 28 Eine der beiden Impulsantworten wird mittels Resampling in ihrer Abspielgeschwindigkeit minimal herauf- oder herabgesetzt. Bei dieser leichten Variation, die sich in einer Größenordnung von etwa 1% abspielt, sind für die Einzelsignale keine klanglichen Abstriche zu befürchten; lediglich die Filterfrequenzgänge der HRTFs verschieben sich dadurch minimal. Damit bleibt das Ergebnis in seinem Frequenzgang im Wesentlichen unberührt. Erst recht wirkt sich dieser Eingriff keinesfalls auf die Tonhöhe des Ausgangssignals aus, da dieses im Zuge der Faltung nach wie vor lediglich lineare Verzerrungen erfährt. Das Resampling gegenüberliegender Impulsantworten bringt für Phantomschallquellen gleich zwei positive Effekte mit sich: Zum einen wird damit die notwendige leichte Dekorrelation bewirkt, ohne dass eine weitere Impulsantwort gemessen werden müsste, zum anderen handelt es sich gleichzeitig dennoch – auf Grund der Spiegelung – um das in Bezug auf die Mikrostruktur des Reflexionsmusters „perfekte“ Gegenstück zu der ursprünglichen Impulsantwort. In verschiedenen Vorversuchen zeigte sich, dass bei der Erzeugung virtueller Phantomschallquellen die Methode des Impulsantwort-Resamplings einem real gemessenen Impulsantwort-Paar keinesfalls unterlegen ist. Vielmehr wurde erstere mehrfach als die klanglich bessere Variante empfunden. Aus diesem Grunde wird im Folgenden bei allen Versuchen, in denen virtuelle Phantomschallquellen zum Einsatz kommen, ausschließlich diese soeben beschriebene Methode Anwendung finden. 2.5.5 Bewegte Schallquellen Bereits mehrfach wurde erwähnt, dass bei der Lokalisation von Schallquellen, insbesondere bei der Unterscheidung zwischen vorne und hinten, leichte Kopfbewegungen unbewusst zu Rate gezogen werden. Das menschliche Gehirn ist dabei in der Lage, aus der leichten relativen Positionsänderung der Schallquelle zusätzliche Richtungsinformationen zu gewinnen. Anstatt mit Hilfe eines Headtrackers relative Positionsänderungen bezüglich des Kopfes zu bewirken, könnte man umgekehrt auch unabhängig von der Kopfposition versuchen, mittels einer permanent aufmodulierten, leichten Bewegung der Schallquelle diesen Effekt ein wenig nachzuahmen. Eine Schallquelle, die sich beispielsweise vor dem Hörer befinden soll, wäre also nicht ständig an ein und derselben Position, sondern würde sich permanent minimal links und rechts um ihr Zentrum herum bewegen. Möglicherweise bietet eine unmerklich aktiv bewegte Schallquelle dem Gehirn dennoch einen kleinen, unterbewussten Anhaltspunkt, um eine höhere Sicherheit über die intendierte Position der Schallquelle zu erhalten. 29 3 3.1 Hörvergleich Versuchs-Design Ein wesentlicher Bestandteil dieser Arbeit war die Durchführung eines Hörvergleichs. Dieser verfolgte in erster Linie zwei Ziele: Zum einen sollten die verschiedenen Möglichkeiten der ImpulsantwortOptimierung auf ihre Wirksamkeit hin überprüft, und zum anderen eine Annäherung an ästhetische Fragestellungen ermöglicht werden, die sich aus der Verwendung binauraler Raumimpulsantworten in Mehrspurmischungen ergeben. Durchführungsmethoden Der Hörvergleich wurde auf zwei Arten durchgeführt. Für eine erste Befragung standen etwa 30 Probanden zur Verfügung. Diese Befragung erfolgte vor Ort im Erich-Thienhaus-Institut unter möglichst kontrollierten Bedingungen. Als Kopfhörer für die Wiedergabe der binauralen Signale diente bei allen Probanden einheitlich das Modell K-601 des Herstellers AKG. Es wurde darauf geachtet, dass sich die Hörer während des Tests ungestört in einem ruhigen Raum aufhalten konnten. Die Hörbeispiele wurden von CD abgespielt, und die Antworten waren handschriftlich auf einem Fragebogen einzutragen. Generell wurde den Hörern geraten, ihre Angaben möglichst rasch, ohne langes Zögern vorzunehmen. Dennoch war es jederzeit gestattet, ein Hörbeispiel mehrmals zu hören. Es wurde jedoch auch nicht zwingend gefordert, jedes Beispiel bis zum Ende anzuhören. Den Hörern war es erlaubt, am CD-Player jederzeit selbst die Track-Auswahl vorzunehmen. Der zweite Durchgang des Hörvergleichs erfolgte in Form einer Online-Umfrage. Die Möglichkeit, über Internet eine weitere Testhörerschaft zu erreichen, bot sich an, da zur Durchführung des Versuchs außer einem hochwertigen Kopfhörer und einer handelsüblichen PC-Audiokarte keinerlei spezielles Equipment benötigt wurde. Für die Online-Befragung erfolgte die Programmierung der gesamten Testanordnung auf vier Internet-Seiten. Sämtliche Audiobeispiele wurden zu diesem Zweck in mp3-Format mit einer Datenrate von 320 kbps konvertiert. Die Wiedergabe erfolgte mittels Flashplayer-Komponenten, und alle Angaben waren über Java-basierte Bedienelemente vorzunehmen. Abschnitt Gegenstand der Untersuchung Anzahl der Hörbeispiele 1 Vergleich: trockene HRTF vs. BRIR mit natürlichem Reflexionsmuster 15 2 Variation des Pegelverhältnisses zwischen Direktsignal und frühen Reflexionen 15 3 Untersuchung der Wirksamkeit weiterer Alternativen zur Optimierung der Vorne-/Hinten-Ortung 16 (=8 je doppelt) 4 subjektive Beurteilung von Musikmischungen 2 Mischungspaare: A: Chor a capella B: Popmusik Tabelle 1: Aufbau des durchgeführten Hörvergleichs Testgliederung Der Hörversuch gliederte sich in insgesamt vier Abschnitte, in denen jeweils unterschiedliche Aspekte empirisch untersucht wurden. Die ersten drei Abschnitte befassten sich mit den Auswirkungen der verschiedenen Bearbeitungsmöglichkeiten für Impulsantworten in Bezug auf die Ortbarkeit der Signale. Der vierte Abschnitt sollte eine Annäherung an die ästhetische Wirkung binaural gemischter Musikaufnahmen wagen, indem konkret subjektive Geschmacksurteile der Testpersonen erfragt wurden. Tabelle 1 gibt eine Übersicht über den groben Aufbau des Hörversuchs. Die einzelnen Abschnitte werden weiter unten ausführlich erläutert. 30 Zufallsvariablen Um eine möglichst hohe Verlässlichkeit der Ergebnisse zu erreichen, war es notwendig, innere Einflüsse der Testanordnung, wie sie sich eventuell aus der Reihenfolge der Hörbeispiele oder auch aus dem verwendeten Audiomaterial ergeben könnten, möglichst von vornherein zu minimieren. Zu diesem Zweck wurde der Test in drei verschiedenen Varianten (A, B und C) erstellt. Für jede Test-Variante wurde die Reihenfolge der Beispiele innerhalb eines jeden Abschnitts zufällig verteilt. Darüber hinaus wurden die insgesamt drei zur Verfügung stehenden Klangbeispiele, aus dem die Hörbeispiele für die Abschnitte 1-3 jeweils erzeugt wurden, innerhalb der Varianten A, B und C permutiert, so dass alle Testabschnitte letztlich mit jedem der drei Audiosignale in einer der drei Test-Varianten vorlagen. Die Zuweisung der Varianten zu den einzelnen Testpersonen erfolgte schlussendlich bei der Durchführung per Zufall. Audiomaterial Als Basismaterial für die Abschnitte 1-3 standen drei verschiedene Klangbeispiele zur Verfügung, mit Hilfe derer die binauralen Hörbeispiele erzeugt wurden. Jedem Abschnitt lag stets eines der drei Beispiele, deren Länge sich jeweils auf etwa 20 Sekunden belief, zu Grunde. Bei der Auswahl der Beispiele stand vor allem der Aspekt im Vordergrund, mit Hilfe weniger Hörproben ein möglichst vielfältiges Spektrum an Signalen abzudecken, dabei aber dennoch Klänge zu präsentieren, mit denen die Hörer aus dem täglichen Leben und dem Umgang mit gängiger Musik vertraut waren. Zu diesem Zweck wurden folgende Signale aufgenommen: 1. Sprecherin 2. Akustik-Gitarre 3. Saxophon Die Sprachaufnahme erfolgte ebenso wie die Saxophonaufnahme in einer reflexionsarmen StudioUmgebung. Im Falle der Gitarre lieferte ein piezoelektrischer Tonabnehmer das erforderliche trockene Signal. Im Folgenden sollen nun die untersuchten Fragestellungen der einzelnen Abschnitte sowie die Aufbereitung der dazugehörigen Hörbeispiele näher erläutert werden. 3.1.1 Testabschnitt 1 Gegenstand der Untersuchung Der erste Abschnitt hatte zum Ziel, die fundamentale Annahme zu verifizieren, dass die Verwendung „echter“ BRIRs, die insbesondere ein räumlich abgebildetes Reflexionsmuster beinhalten, verglichen mit der Verwendung trockener HRTFs einen klaren Vorteil in Bezug auf die Sicherheit der Ortung bewirkt. Darüber hinaus sollte überprüft werden, inwieweit ein solcher Vorteil möglicherweise lediglich auf das bloße „Vorhandensein“ der Reflexionen zurückzuführen ist oder ob der entscheidende Unterschied tatsächlich in deren richtungsmäßig korrekter, binauraler Abbildung zu finden ist. Um dies zu untersuchen, wurden weitere Signale in den Test mit einbezogen, bei denen die trockene HRTF mit einem nachträglich auralisierten Reflexionsmuster kombiniert wurde. Folgende drei Auralisationsmuster wurden in Abschnitt 1 verglichen: 1. trockene HRTF 2. HRTF mit echtem binauralen Reflexionsmuster 3. HRTF mit nachträglich auralisiertem Reflexionsmuster 31 Frage-Strategie Um zu einem geeigneten Versuchs-Design zu gelangen, musste zunächst ein Konzept gefunden werden, um von den Testhörern Informationen darüber zu erhalten, mit welcher Sicherheit sie in der Lage sein würden, einem Stimulus seine Richtung zuzuordnen. Eine erste Möglichkeit wäre daher, die Person direkt daraufhin zu befragen, wie sicher sie glaubt, dem Hörereignis eine Richtung zuweisen zu können. Dies wäre jedoch ein rein subjektives Kriterium und sagte noch nichts darüber aus, ob die wahrgenommene Richtung der Stimuli auch mit der intendierten Richtung übereinstimmte. Wesentlich aussagekräftiger wäre es dagegen, statistisch zu ermitteln, wie hoch die „Treffsicherheit“ bei der Zuordnung von Stimuli zu bestimmten, intendierten Richtungen sei und in welchem Maße sie variierte, je nachdem, welches der drei Auralisationsmuster verwendet wurde. Dies ließe sich dadurch erreichen, dass man jeder Testperson mehrere nach dem gleichen Muster auralisierte Signale aus verschiedenen Richtungen vorspielte. Für jedes Signal müsste die Person die wahrgenommene Richtung angeben. Durch den Vergleich der intendierten Richtungen mit den jeweils wahrgenommenen ließe sich sowohl die individuelle Treffsicherheit eines Hörers ermitteln als auch – längsschnittlich betrachtet – die Treffsicherheit aller Testpersonen für einen bestimmten Winkel. Da es allein schon wegen des zeitlichen Umfangs eines solchen Tests nicht ohne Weiteres möglich wäre, den Hörern systematisch Signale aus allen erdenklichen Richtungen vorzuspielen, war es in unserem Fall erforderlich, die Auswahl auf wenige, repräsentative Richtungen in der Horizontalebene zu beschränken. Sinnvoll erschien es uns, Hörbeispiele für die Richtungen ϕ = 0°, 30°, 60°, 130° und 180° zu erstellen, und dies jeweils unter Verwendung der drei verschiedenen Auralisationsmuster. Den Hörern war dabei selbstverständlich nicht bekannt, dass es sich nur um eine begrenzte Auswahl an Richtungen handelte. Sie hatten lediglich die wahrgenommene Richtung des Stimulus durch eine Markierung auf einem geschlossenen Kreis zu kennzeichnen. Neben der wahrgenommenen Richtung wurden die Hörer bei jedem Beispiel darum gebeten, noch zwei weitere Angaben zu machen. Auf je einer vierstufigen Skala sollte zum einen eine Angabe über die subjektive Sicherheit der Quellenlokalisation gemacht werden („sehr unsicher“ bis „sehr sicher“) und zum anderen eine Angabe über die empfundene klangliche Natürlichkeit der Quelle („sehr unnatürlich“ bis „sehr natürlich“). Die Frage nach der subjektiven Sicherheit sollte einen zusätzlichen Anhaltspunkt bei der Ermittlung der tatsächlichen Treffsicherheit bieten. Die Angabe zur Natürlichkeit dagegen sollte ein Urteil über die klangliche Akzeptanz einholen, um damit – nicht zuletzt im Hinblick auf eventuelle ästhetische Fragen – Aussagen zu ermöglichen. Die folgende Abbildung zeigt einen Ausschnitt des Fragebogens für Abschnitt 1 aus der Onlinebefragung (links) und der Einzelbefragung (rechts). Erstellung der Hörbeispiele Als Grundlage für die Erstellung der Hörbeispiele zu Abschnitt 1 dienten die im Brahmssaal gemessenen BRIRs. Dabei wurde im Einzelnen wie folgt vorgegangen: 1. Trockene HRTF Zunächst wurden aus allen BRIRs der zu untersuchenden Richtungen (ϕ= 0°, 30°, 60°, 130° und 180°) die jeweiligen HRTFs isoliert. Dies geschah mit Hilfe einer kurzen Blende (25 Samples), die unmittelbar zwischen dem Ausschwingvorgang des Direktsignals und dem Einsetzen der ersten Reflexion angesetzt wurde. Sie teilte die Impulsantwort also in zwei Teile. Somit konnten die jeweilige HRTF und ihre dazugehörige binaurale Raumantwort als getrennte Bestandteile einer gesamten Übertragungsfunktion genutzt werden. Aus den isolierten HRTFs wurden mittels Faltung des Audiomaterials sodann die ersten fünf der insgesamt 15 Beispiele gewonnen. 2. Echte Reflexionen In einem nächsten Schritt wurde das Reflexionsmuster von seiner diffusen Hallfahne getrennt. Dies geschah mit Hilfe einer zweiten, längeren Blende. Die Länge dieser Blende betrug 60 ms. Ihr Beginn 32 Abbildung 21: Fragebogen aus Abschnitt 1: Onlinebefragung (links), Befragung vor Ort (rechts) wurde unmittelbar nach dem Direktsignal so angesetzt, dass sie über den Verlauf des gesamten ReflexionsAbschnitts gleichmäßig wirksam war. Da – wie bereits erwähnt – die diffuse Hallfahne bei der Ortung von Signalen ohnehin keine (oder allenfalls eine untergeordnete) Rolle spielt, wurde in den Beispielen des ersten Abschnitts gänzlich auf diese verzichtet. Es kamen lediglich die Komponenten Direktsignal und frühe Reflexionen zum Einsatz. Für die Gegenüberstellung mit trockenen HRTFs brachte dies den Vorteil, dass sich die Beispiele rein äußerlich nicht allzu offensichtlich voneinander unterschieden. Das Vorhandensein einer deutlich hörbaren Hallfahne hätte an dieser Stelle bei den Hörern möglicherweise unnötige Irritationen bewirkt und vom eigentlichen Gegenstand der Untersuchung abgelenkt. Durch Faltung des Audiomaterials mit diesem Abschnitt der BRIR wurden somit die separierten Reflexionsmuster zu den jeweiligen Richtungen erzeugt. Durch deren laufzeitrichtige Kombination mit den fünf bereits vorliegenden, trockenen Signalen entstanden also weitere fünf Hörbeispiele. Alternativ zu der Verwendung des binauralen Reflexionsmusters sollte für jede der fünf Richtungen noch eine weitere Möglichkeit einbezogen werden. Anstelle der binauralen Reflexionen sollte ein nachträglich auralisiertes Reflexionsmuster mit dem Direktsignal kombiniert werden. Das hierfür verwendete Reflexionsmuster stammte aus Impulsantworten derselben Messreihe wie die BRIRs. Sie wurden parallel zur Messung mit dem Kunstkopf mit Hilfe eines Druckempfängers aufgezeichnet und auf dieselbe Weise bearbeitet (vgl. Kap. 2). Das Reflexionsmuster weist also genau die gleiche zeitliche Struktur auf wie sein jeweils binaurales Pendant, jedoch ist es auf eine räumliche Dimension reduziert. Durch die Faltung des Audiosignals mit diesen Reflexionen wurde zunächst ein reiner Mono-Reflexionsanteil gewonnen. Dieser wurde seinerseits mit der entsprechenden HRTF gefaltet, so dass in diesen fünf Hörbeispielen die Reflexionen zwar stets binaural, jedoch alle aus derselben Richtung wie das Direktsignal wiedergegeben wurden. 3.1.2 Testabschnitt 2 Gegenstand der Untersuchung Während der vorangegangene Testabschnitt von der Frage geleitet war, ob sich mit Hilfe natürlicher Reflexionen ein Vorteil bewirken ließe, sollte mit Hilfe des zweiten Abschnitts überprüft werden, inwieweit sich unterschiedliche Pegelverhältnisse zwischen dem Direktschall und den frühen Reflexionen in Bezug auf Ortung und klangliche Natürlichkeit vorteilhaft bemerkbar machten. Dabei spielte in erster Linie die Vermutung eine Rolle, dass mit zunehmendem Anteil der frühen Reflexionen vor allem die Außer-KopfLokalisation verstärkt und damit verbunden auch die richtungsmäßige Ortbarkeit begünstigt würde. 33 Um dieser Vermutung auf den Grund zu gehen, wurden für den zweiten Testabschnitt drei weitere Auralisationsmuster gewählt; diesmal wie folgt: 1. BRIR ohne Pegeländerung der frühen Reflexionen 2. BRIR mit Anhebung der frühen Reflexionen um +3 dB 3. BRIR mit Absenkung der frühen Reflexionen um -3 dB Frage-Strategie Auch in diesem Fall sollte überprüft werden, mit welcher Sicherheit die Hörer in der Lage sein würden, einem Stimulus seine Richtung zuzuweisen und ob diese Sicherheit je nach gewähltem Pegelverhältnis variierte. Darum wählten wir auch für diesen Abschnitt die gleiche Vorgehensweise wie in Abschnitt 1. Die Hörbeispiele wurden also für fünf Einfallsrichtungen (ϕ= 0°, 30°, 60°, 130°, 180°) mit jeweils drei Auralisationsmustern aufbereitet, woraus sich auch für den zweiten Abschnitt 15 Hörbeispiele ergaben. Auch der Wortlaut der Fragen unterschied sich nicht von dem des ersten Abschnitts. Die Angabe der Richtung erfolgte durch Kennzeichnung auf einem Kreis. Ebenfalls war eine Angabe zur subjektiven Sicherheit und klanglichen Natürlichkeit der Quelle zu machen. Erstellung der Hörbeispiele In diesem Abschnitt kamen ebenfalls die im Brahmssaal gemessenen BRIRs zum Einsatz. Wie in Abschnitt 1 wurde zunächst auch hier auf die beschriebene Weise eine Trennung der Impulsantwort in ihre Komponenten Direktschall – frühe Reflexionen – Nachhall vorgenommen. Im Unterschied zu Abschnitt 1 wurde hier die diffuse Hallfahne jedoch nicht verworfen, sondern etwas verkürzt und mit leicht abgesenktem Pegel zugemischt. Diese leichte Verschleierung bewirkte, dass die Pegeländerungen der frühen Reflexionen weniger offensichtlich in Erscheinung treten konnten. Der leichte Nachhall verlieh den Hörbeispielen zudem einen subjektiv angenehmeren Klang. Die pegelmäßige Veränderung des mittleren Abschnitts (+3 dB, -3 dB, 0 dB) ergab sodann für jede der fünf Richtungen jeweils drei neue Impulsantworten mit unterschiedlich starken Reflexionsanteilen. Diese wurden mit dem Audiomaterial gefaltet und ergaben die 15 Hörbeispiele des zweiten Abschnitts. Die Tatsache, dass diese Hörbeispiele eine leichte Hallfahne enthielten, schloss allerdings einen Vergleich zwischen den Abschnitten 1 und 2 von vornherein aus. Trotz der identischen Fragestellung können die Angaben deshalb nur innerhalb eines Abschnitts ausgewertet werden. 3.1.3 Testabschnitt 3 Gegenstand der Untersuchung In diesem Abschnitt sollten speziell drei der in Kapitel 2.5 (Systemoptimierung) beschriebenen Möglichkeiten zur Verbesserung der Vorne-/Hinten-Ortung auf ihre Wirksamkeit hin überprüft und den unbearbeiteten Impulsantworten für vorne und hinten gegenübergestellt werden. Abschnitt 3 bestand nur aus solchen Hörbeispielen, die ausschließlich von vorne oder von hinten zu orten sein sollten. Folgende Fragestellungen waren dabei von Interesse: Inwieweit wird die Vorne-/Hinten-Ortung dadurch verbessert, dass 1. eine einzelne Schallquelle durch eine Phantomschallquelle ersetzt wird? 2. zusätzliche Filter zur Hervorhebung der „Blauertschen Bänder“ eingesetzt werden? 3. die (Phantom-)Schallquelle permanent minimal „in Bewegung“ ist? 34 Die Idee bestand darin, anhand mehrerer Audiobeispiele sämtliche dieser Einstellungsmöglichkeiten für vorne und hinten im Test einander gegenüberzustellen. Unter Hinzunahme der einzelnen unbearbeiteten HRTFs für die 0°- und 180°- Richtung als Referenz hätten sich daraus also insgesamt acht Hörbeispiele ergeben. Mit einer Ausnahme wurden die Hörbeispiele auch alle nach diesem Schema erstellt. Es wurde lediglich darauf verzichtet, für oben genannten Punkt 3 (bewegte Quelle) ein hinten liegendes Hörbeispiel zu erzeugen. Stattdessen wählten wir eine weitere Einstellung für vorne. Diese zusätzliche Einstellung sollte sozusagen einen Maximal-Eingriff darstellen, indem sie die Punkte 1 bis 3 allesamt miteinander kombinierte. Die acht Hörbeispiele waren im Einzelnen: Beispiel Variante benutzte BRIRs 1 0° BRIR 0° 2 180° BRIR 180° 3 Phantomschallquelle vorn -30°/+30° 4 Phantomschallquelle hinten -150°/+150° 5 Phantomschallquelle mit Filterung vorn 30°/+30° 6 Phantomschallquelle mit Filterung hinten -150°/+150° 7 Phantomschallquelle in Bewegung, vorn 30°/+30° 8 Phantomschallquelle in Bewegung, mit Filterung vorn 30°/+30° Tabelle 2: Hörbeispiele in Testabschnitt 3 Zwar waren die Hörbeispiele für den Test ohnehin in zufälliger Reihenfolge angeordnet, jedoch wurde zudem jedes der Beispiele zweimal (identisch) verwendet, um bei der Durchführung des Tests eine noch höhere Unabhängigkeit der Ergebnisse untereinander zu erreichen. Somit ergaben sich insgesamt 16 Fragen für Abschnitt 3. Frage-Strategie Für die Befragung der Testpersonen diente nun eine senkrechte Achse zur Erfassung der Lokalisation. Auf dieser sollten die Hörer durch eine Markierung kennzeichnen, wie weit „außerhalb des Kopfes“ sie die Schallquelle vorne oder hinten hören konnten. Das obere und untere Ende der Achse symbolisierte dabei je ein deutlich vorne oder deutlich hinten wahrgenommener Stimulus. Dazwischen waren stufenlose Markierungen möglich. Eine Markierung genau auf der Achsen-Mitte sollte dann gemacht werden, wenn der Hörer das Gefühl hatte, die Quelle weder vorne noch hinten, sondern im Kopf zu lokalisieren. Für den Fall, dass der Hörer bei einem Beispiel überhaupt nicht in der Lage wäre, eine Aussage über die Lokalisation zu treffen, hatte er zusätzlich die Möglichkeit, dies durch Ankreuzen eines separaten Feldes zu signalisieren. In diesem Fall blieb die Markierung auf der Vorne-/Hinten-Achse unberücksichtigt. Einen weiteren Parameter, der insbesondere aufgrund der Verwendung virtueller Phantomschallquellen von Interesse war, stellte die „Schärfe“ dar, mit welcher eine Quelle wahrgenommen wurde. Abbildungsschärfe kann in diesem Zusammenhang etwa mit der empfundenen Breite der Quelle gleichgesetzt werden. Bei unscharfer Lokalisation scheint die Quelle über die gesamte Breite des vorderen oder hinteren Halbraumes ausgedehnt, während sie bei hoher Lokalisationsschärfe eher eine geringe räumliche Ausdehnung zu besitzen scheint. Ihren Eindruck darüber sollten die Testhörer zu jedem Beispiel auf einer vierstufigen Skala („sehr unscharf“ bis „sehr scharf“) festhalten. Da die Anwendung von Filtern zur Hervorhebung der Blauertschen Bänder einen zusätzlichen Eingriff in den Frequenzgang darstellt, der sich unter Umständen auch negativ auf die klangliche Qualität des 35 Signals auswirken könnte, sollten die Hörer außerdem eine Angabe zur empfundenen Klangfarbe machen. Hierfür konnten sie eine von drei Möglichkeiten (neutral / leicht verfärbt / stark verfärbt) ankreuzen. Die folgende Abbildung zeigt einen Ausschnitt von Abschnitt 3 der Online-Befragung (links) und der Einzelbefragung (rechts). Abbildung 22: Fragebogen aus Abschnitt 3: Onlinebefragung (links), Befragung vor Ort (rechts) Erstellung der Hörbeispiele Da in diesem Versuch keine Veränderungen an den frühen Reflexionen vorgenommen werden sollten, war auch eine Aufteilung der BRIRs in ihre drei Bestandteile nicht notwendig. Mit Hilfe einer Hüllkurve wurde bei allen BRIRs allerdings die ursprüngliche Nachhallzeit etwas gekürzt. Der Grund war zum einen, den klanglichen Unterschied zu den Hörbeispielen der vorangegangenen Abschnitte möglichst gering zu halten, zum anderen spielten dabei auch rein geschmackliche Aspekte eine Rolle. Dieser Eingriff bezog sich aber ausschließlich auf den diffusen Nachhall; das originale Reflexionsmuster blieb davon unberührt. Die diesem Abschnitt zu Grunde liegenden vier BRIRs (ϕ = 0°, 180°, -30°, -150°) stammten von den Messungen im Brahmssaal. Die zur Gewinnung der Phantomschallquellen jeweils gegenüberliegenden BRIRs (ϕ = +30° und ϕ = +150°) wurden mit Hilfe der bereits in Kapitel 2.5.4 beschriebenen ResamplingMethode aus den gemessenen BRIRs (ϕ = -30° und ϕ = -150°) erzeugt. Filterkurven nach Blauert Bei der Suche nach Filtereinstellungen, die die richtungsbestimmenden Bänder nach Blauert möglichst optimal unterstützen, wurden mehrere Vorversuche durchgeführt, aus denen die letztendlich verwendeten Einstellungen hervorgingen. Es sei hier noch einmal darauf hingewiesen, dass sich in der Literatur keine Angaben finden, mit deren Hilfe man anhand der statistischen Häufigkeitsverteilung, wie sie durch die vorgefundenen Kurven nach Blauert repräsentiert wird, eine „richtige“ Filtereinstellung ableiten könnte. Die Kurven wurden lediglich als Anhaltspunkt verwendet. Prinzipiell waren dabei zunächst verschiedene Herangehensweisen denkbar. Einerseits könnte man Frequenzbereiche, die für die jeweils gewünschte Richtung ausschlaggebend sind, verstärken. Dies würde für von vorn kommende Schallereignisse je eine Anhebung der Frequenzen bei etwa 400 Hz und 4 kHz bedeuten. Andererseits wäre aber auch eine Absenkung der für die jeweils gegenüberliegende Richtung ausschlaggebenden Frequenzbereiche denkbar. Um also ein vorne liegendes Schallereignis „weniger hinten“ erscheinen zu lassen, wäre in diesem Falle eine Absenkung bei etwa 1 kHz erforderlich. Diese beiden Wege schlägt auch Sengpiel vor [vgl. Sengpiel: „Die Bedeutung der Blauertschen Bänder für die Tonaufnahme“]. Sengpiel verweist in diesem Zusammenhang auf Untersuchungen von Bücklein [Bücklein 1964], wonach 36 Veränderungen im Frequenzgang akustischer Signale im Falle einer Pegelanhebung wesentlich deutlicher wahrgenommen werden als im Falle einer Absenkung. In den Vorversuchen wurden verschiedene Varianten, teils mit Hilfe eines parametrischen Equalizers, teils mit Hilfe einer FFT-Frequenzgangkorrektur in Bezug auf ihre Wirksamkeit und klangliche Verfärbung miteinander verglichen. Als guter Kompromiss stellten sich dabei solche Filterkurven heraus, die sich in ihrem Verlauf sehr eng am Verlauf der richtungsbestimmenden Bänder orientierten, dabei aber nur eine Anhebung der zu unterstützenden Bereiche bewirkten, ohne die gegenüberliegenden Frequenzbänder abzusenken. Die Filterkurven, die letztendlich zum Einsatz kamen, sind in der folgenden Abbildung dargestellt. Abbildung 23: Filterfrequenzgänge für vorne (links) und hinten (rechts) Phantomschallquelle in Bewegung Da in der Struktur des DAW-Projektes, mit dessen Hilfe die Hörbeispiele für Abschnitt 3 erzeugt wurden, ohnehin bereits die Verwendung von Phantomschallquellen vorgesehen war, stellte das virtuelle „In-Bewegung-Versetzen“ der Schallquellen keinen allzu großen Schritt mehr dar. Mit Hilfe eines LFOSignals wurde das Audiosignal, das dem linken bzw. rechten Kanal der virtuellen Stereobasis zugeführt wurde, mit leichten Pegelschwankungen versehen. Diese Pegelschwankungen hatten einen exakt gegenphasigen Verlauf, so dass sich als Resultat daraus eine permanente, geringfügige Veränderung der Position des Signals im Panorama ergab. Die Schwankungen erfolgten dabei mit einer Frequenz von etwa 0,7 Hz. bei einer Amplitude von +/-1,3 dB. 3.1.4 Testabschnitt 4 Gegenstand der Untersuchung Während sich die Abschnitte 1-3 allesamt mit rein technischen Verbesserungsmöglichkeiten der Impulsantworten beschäftigten, hatte Abschnitt 4 zum Ziel, die Methode nun in der musikalischen Praxis auf die Probe zu stellen. Hierzu wurden aus zwei bereits vorliegenden Musik-Produktionen jeweils ein Paar unterschiedliche Mischungen erstellt, mit denen die Testhörer konfrontiert wurden. In erster Linie waren dabei die spontanen Reaktionen und Werturteile der Hörer, welche sie den verschiedenen Mischungen beimaßen, von Interesse. Auf diesem Weg sollte eine erste Annäherung an Fragen der Tauglichkeit der Methode in Bezug auf ihre klanglich-ästhetische Verwendung in künstlerischem Kontext gewagt werden. Frage-Strategie Bei der Konzeption des Testabschnitts zeigte sich bald, dass es ein extrem schwieriges Unterfangen sein würde, einen geeigneten Weg zu finden, um Hörern darüber gezielt aufschlussreiche Antworten zu entlocken. Die subjektiven Kategorien, in welchen ästhetische Werturteile über ein klangliches Erlebnis gebildet werden, sind überaus komplex und divergieren zudem zwischen einzelnen Personen in einem zu hohen Maße, als dass sie mit einigen wenigen Fragen aussagekräftig in parametrisierter Form abgefragt werden könnten. Eine systematische Untersuchung dieser Art würde zum einen den Rahmen eines solchen 37 Hörversuchs sprengen und wäre zum anderen in einem so frühen Stadium der Erprobung unserer Methode vermutlich auch noch nicht indiziert. Anstatt also durch die Fragestellung gezielte Aspekte ästhetischer Kategorien vorzugeben, entschieden wir uns dazu, die Versuchspersonen zu jedem Hörbeispiel vollkommen unvoreingenommen nach ihrem ersten Gesamteindruck beim Hören der jeweiligen Mischungen zu befragen. Dies geschah schlicht in Form einer Schulnote, die die Hörer zu jedem Beispiel auf einer Skala von 1 (bestes Urteil) bis 6 (schlechtestes Urteil) vergeben sollten. In der Annahme, dass bei diesem Entscheidungsprozess jeder Hörer zwangsläufig seine individuellen, subjektiven Kategorien zu Rate ziehen muss – ohne sie wäre er schließlich nicht in der Lage, zu einem Urteil zu gelangen – schien es uns besonders interessant, an dieser Stelle jeweils einen kurzen, freien Kommentar einzufordern. Die Vermutung lag nahe, dass die Begriffe, welche die Hörer spontan dazu verwenden würden, ihren persönlichen Eindruck zu schildern, nachdem sie unmittelbar zuvor eine Note vergeben hatten, deutliche Rückschlüsse darüber erlauben würden, welche ästhetischen Kategorien ihnen bevorzugt dienten, um beim unvoreingenommenen Hören einer binauralen Musikmischung zu einem Urteil zu gelangen. Die Mischungen Bei den beiden verwendeten Musikbeispielen handelte es sich jeweils um einen Ausschnitt von etwa einer Minute Länge aus den folgenden Stücken: 1. R. Murray Schaffer: „Epitaph for Moonlight“ für 16-stimmigen Chor a capella (Kunstkopfaufnahme versus binaurale Mischung) Im ersten Mischungspaar, in dem ein Stück für 16-stimmigen Chor zu hören war, wurde eine unbearbeitete Kunstkopfaufnahme einer binauralen Nachmischung desselben Stückes gegenübergestellt. Ziel der binauralen Mischung war es, das klangliche Ergebnis nach Möglichkeit an die Kunstkopfaufnahme anzunähern und im Hörvergleich zu erfahren, worin sich für die Hörer klanglich-ästhetische Unterschiede der beiden Varianten manifestierten, bzw. ob die Hörer überhaupt mehrheitlich in der Lage sein würden, klangliche Unterschiede festzustellen. Die beiden Mischungen sind auf der beigefügten CD enthalten. Ausführliche Beschreibungen zur Vorgehensweise finden sich im Appendix. 2. Stereo Inn: Popsong „St. John’s“ (zwei Gesangsstimmen, Akustikgitarre, Shaker) (Raumbezogene Mischung versus binaurale Mischung) Im zweiten Mischungspaar, in dem ein Popsong zu hören war, wurde eine raumbezogene Mischung einer binauralen Nachmischung desselben Stückes gegenübergestellt. Bei der Erstellung beider Mischungen wurde versucht, zwei klanglich bestmögliche Varianten zu erstellen, die sich in Lautheit und Klangfarbe gleichen sollten. Die beiden Mischungen sind auf der beigefügten CD enthalten. Ausführliche Beschreibungen zur Vorgehensweise finden sich im Appendix. 38 3.2 Auswertung des Hörvergleichs In den Hörversuchen wurden insgesamt 62 Versuchspersonen befragt. Diese verteilten sich zu je 31 Probanden auf die Einzelbefragung („Offline“) und die Internet-Befragung („Online“). Die Hörerschaft rekrutierte sich überwiegend aus musiknahen Berufsgruppen, wobei etwa die Hälfte von Tonmeisterstudenten bzw. Tonmeistern gestellt wurde. In der Einzelbefragung, die im ErichThienhaus-Institut stattfand, standen Tonmeisterstudenten und Studierende anderer Studiengänge sowie Dozenten und Professoren zur Verfügung. Für die Online-Befragung konnten darüber hinaus Tonmeisterstudenten anderer Hochschulen (Universität der Künste Berlin, Universität für Musik und darstellende Kunst Wien) sowie einige Studierende und Mitarbeiter des Instituts für Technische Akustik (ITA) der RWTH Aachen gewonnen werden. Versuchsleiter Alle Versuchspersonen hatten den Test selbständig mit Hilfe einer CD bzw. eines Online-Fragebogens durchzuführen. Zu Beginn des Tests wurden jeder Versuchsperson ausführliche schriftliche Erläuterungen zur Vorgehensweise gegeben. Im Falle der Online-Befragung ist eine Einflussnahme des Versuchsleiters somit ausgeschlossen. Bei der Durchführung der Offlinebefragung wurden die Eingangs-Erläuterungen dagegen in einigen Fällen mündlich gegeben, vorrangig mit dem Ziel, der Nervosität unerfahrener Testhörer entgegenzuwirken. Zudem war es den Teilnehmern der Offline-Befragung jederzeit gestattet, im Verlauf des Tests Rückfragen zu stellen. Jedoch wurde von dieser Option nur in den seltensten Fällen Gebrauch gemacht. Somit kann die Einflussnahme des Versuchsleiters auch in der Offline-Befragung als vernachlässigbar angesehen werden. Wiedergabereihenfolge Durch die unterschiedliche Reihenfolge, mit der die Hörbeispiele innerhalb der Test-Varianten A, B und C wiedergegeben wurden, sollte der Einfluss der Wiedergabe-Reihenfolge auf das Testergebnis verringert werden. Mit Hilfe eines Chi-Quadrat-Tests wurden die Angaben der Hörer zu den sich jeweils entsprechenden Hörbeispielen zwischen den Varianten A, B und C verglichen. Dies ließ erkennen, dass unabhängig von der wiedergegebenen Reihenfolge der Hörbeispiele bereits eine relativ hohe Übereinstimmung der Aussagen gegeben war. Die an wenigen Stellen auftretenden Abweichungen konnten durch die Einbeziehung aller drei Varianten als vernachlässigbar angesehen werden. Tätigkeitsfelder der Testpersonen Die folgende Tabelle zeigt eine Aufschlüsselung der Versuchspersonen nach Tätigkeitsbereich: Beruf Anzahl Tonmeister 31 Musiker 16 Technische Berufe 9 Sonstige 6 Tabelle 3: Auflistung der Testteilnehmer nach Beruf Eine Unterscheidung nach Tätigkeitsfeld der jeweiligen Probanden wurde zunächst nicht vorgenommen. Da in den Abschnitten 1-3 lediglich die Ortbarkeit von Schallquellen als ein Phänomen des natürlichen Hörens untersucht wurde, schien diese Trennung nicht notwendig. Erst in Abschnitt 4, wo Aussagen 39 zur ästhetischen Empfindung eingeholt wurden, kann diese Unterscheidung mögliche Rückschlüsse auf Hörgewohnheiten von Personen unterschiedlicher Berufsgruppen erlauben. Eine Begleiterscheinung bei der Wiedergabe binauraler Signale ist die Variation der Abbildungstreue bei der Verwendung unterschiedlicher Kopfhörersysteme. Im Falle der Online-Befragung machte sich dies deutlich bemerkbar. Aus diesem Grund wurden die Ergebnisse, die aus den beiden Befragungsmethoden hervorgingen, teilweise getrennt betrachtet. 3.2.1 Testabschnitt 1 Für die Auswertung der Abschnitte 1 und 2 wurden Polardiagramme erstellt, anhand derer sich die Häufigkeitsverteilungen der wahrgenommenen Richtungen im Einzelnen ablesen lassen. Zur Bestimmung der Häufigkeit wurden alle Winkelangaben der Probanden auf ein 30°-Raster gerundet. Da aufgrund der eindeutigen Laufzeit- und Pegeldifferenzen keine Verwechslungen zwischen dem linken (-180°<ϕ<0°) und rechten Halbkreis (0°<ϕ<180°) zu erwarten waren, wurden außerdem alle Angaben rein betragsmäßig betrachtet. Die folgenden Diagramme zeigen die Ergebnisse von Abschnitt 1. Zu beachten ist, dass in dieser eigentlich betragsmäßigen Darstellung allein der Übersichtlichkeit wegen ein geschlossener Kreis verwendet wurde. Die Ergebnisse für Stimuli aus den Richtungen 0°, 30° und 60° sind nach rechts dargestellt, diejenigen für 120° und 180° dagegen nach links. Die Diagramme aus Abbildung 24 zeigen die Ergebnisse unter Einbeziehung aller 62 Hörer aus Online- und Offline-Befragung. In Abbildung 25 und 26 sind die Ergebnisse der Online- und Offline-Befragung getrennt dargestellt. Abbildung 24: Häufigkeiten der wahrgenommenen Richtungen, alle Probanden. Bei Betrachtung der Gesamtergebnisse (erste Zeile) fällt zunächst auf, dass Richtungen der Stimuli sowohl in der Einstellung „Trockene HRTF“ als auch in der Einstellung „Nachträglich auralisierte Reflexionen“ eine generelle Tendenz nach vorne aufweisen. Speziell die 180°-Richtung wurde in beiden Einstellungen wesentlich häufiger in der vorderen Hälfte wahrgenommen als in der hinteren. In der trockenen Einstellung orteten insgesamt 40 von 62 Hörern (65%) diese von vorne anstatt von hinten; bei nachträglich auralisierten Reflexionen trat dieser Irrtum sogar bei 43 Hörern (69%) auf. Die drei seitlichen Winkel (30°, 60° und 120°) lassen in der Einstellung mit trockener HRTF allesamt keine klare Tendenz zwischen vorne und hinten erkennen. Die Beispiele für 60° und 120° wurden von einer deutlichen Mehrheit der Hörer aus 90°-Richtung wahrgenommen, während 30°-Stimuli eher der 40 Abbildung 25: Häufigkeiten der wahrgenommenen Richtungen, Probanden der Befragung vor Ort. Abbildung 26: Häufigkeiten der wahrgenommenen Richtungen, Probanden des Online-Tests. 60°-Richtung zugeordnet wurden. Dabei traten jedoch in mehr als der Hälfte aller Fälle die typischen „incone“-Verwechslungen auf. In der Einstellung „Nachträglich auralisierte Reflexionen“ ist für die seitlich gelegenen Hörbeispiele sogar eine generelle, leicht gegenläufige Tendenz zu beobachten. Die vorne liegenden Stimuli (30°, 60°) wurden hier deutlich häufiger in der hinteren Hälfte geortet, während der hinten liegende 120°-Stimulus in mehr Fällen von vorne wahrgenommen wurde. Das dritte Diagramm, in dem die Ergebnisse für eine Auralisation mit echten BRIRs dargestellt sind, zeigt dagegen ein anderes Bild. Bei Betrachtung der Einstellungen für 0° und 180° fällt auf, dass die Ergebnisse hier tatsächlich eine Tendenz nach der entsprechenden Richtung aufweisen. Während der 180°-Stimulus von einem größeren Teil der Hörer (56%) tatsächlich hinten geortet werden konnte, wurden vorne liegende Stimuli nach wie vor häufiger im vorderen Bereich wahrgenommen (63%). Bei den seitlich gelegenen Richtungen zeigt sich der auffälligste Unterschied in der Ortbarkeit des 120°Stimulus. Hier konnte mehr als die Hälfte aller Probanden die Richtung korrekt bestimmen. Während in insgesamt 32 Fällen genau 120° angegeben wurden, lagen von den übrigen 30 Probanden immerhin noch 26 lediglich im benachbarten Sektor. In der Gesamtdarstellung zeigt sich jedoch das Problem, dass die Wahrnehmung der 30°-Richtung selbst bei der Verwendung echter BRIRs eine hohe Rate an „in-cone“-Verwechslungen aufweist. Dies könnte besonders bei der Verwendung von virtuellen Phantomschallquellen ein Problem darstellen, da hier als Basis Impulsantworten aus der Richtung 30° Verwendung finden. Ein Vergleich zwischen den Ergebnissen der Online- und der Offline-Befragung zeigt, dass offensichtlich ein signifikanter Unterschied zwischen den beiden Befragungen besteht. Es ist deutlich zu erkennen, dass in der vor Ort durchgeführten Offline-Befragung die wesentlich besseren Ergebnisse erzielt wurden als in der Online-Befragung. Dieser Unterschied ist mit großer Wahrscheinlichkeit auf die verschiedenen Frequenzgänge der verwendeten Kopfhörer zurückzuführen. Während in der Offline-Befragung bei allen Hörern einheitlich das Modell AKG K601 zum Einsatz kam, gab es in der Onlinebefragung nur die nicht 41 näher spezifizierte Vorgabe, einen hochwertigen Kopfhörer zu verwenden. Die Probanden des Offline-Tests waren offensichtlich viel eher in der Lage, einen 30°-Stimulus tatsächlich vorne zu orten. Lediglich eine minimale Tendenz nach vorne zeichnet sich bei der 60°-Richtung ab. Dieser Stimulus wurde von einem großen Teil der Hörer aus der 90°-Richtung wahrgenommen. 3.2.2 Testabschnitt 2 Die folgenden Abbildungen zeigen die Ergebnisse des zweiten Testabschnitts, bei dem untersucht wurde, inwieweit sich Änderungen am Pegel der frühen Reflexionen in Bezug auf die Lokalisation bemerkbar machen. Aufgrund der deutlich höheren Aussagekraft der Einzelbefragung, die durch die Verwendung eines einheitlichen Kopfhörermodells gewährleistet war, wurden in den folgenden Betrachtungen lediglich diese Ergebnisse untersucht. Abbildung 27: Häufigkeiten der wahrgenommenen Richtungen nach Modifikation, Probanden der Befragung vor Ort. Da allen drei Einstellungen echte BRIRs zu Grunde lagen, lässt sich bezüglich der Vorne-/HintenLokalisation zunächst jeweils eine Ähnlichkeit zu der im ersten Abschnitt untersuchten Auralisation mit echten BRIRs erkennen. Untereinander weisen die drei Einstellungen auch eher geringe Unterschiede auf. In Bezug auf die Ortbarkeit des 0°-Stimulus zeigt sich bei Anhebung der frühen Reflexionen eine gewisse Tendenz nach hinten. Während in der 0 dB-Einstellung der größere Teil der Hörer in der Lage war, das Beispiel vorne zu orten, gab die Mehrheit bei Anhebung der Reflexionen an, das Signal von hinten wahrzunehmen. Eine Absenkung der frühen Reflexionen scheint sich dagegen negativ auf die Rate der „in-cone“Verwechslungen auszuwirken. Betrachtet man die Angaben der Probanden bezüglich der 30°-Richtung, so fällt auf, dass sowohl in der Einstellung +3 dB als auch 0 dB jeweils die Mehrheit den Stimulus auch im vorderen Bereich wahrnehmen konnte. Bei Absenkung der Reflexionen um 3 dB nahmen die Verwechslungen dagegen zu, und die Mehrheit gab an, den Stimulus von hinten wahrzunehmen. Insgesamt ist aber zu erkennen, dass sich Veränderungen am Pegel der frühen Reflexionen eher in geringem Maße auf die Ortung auswirken. Es lässt sich die Vermutung anstellen, dass als optimales Verhältnis eben das durch die reale Messung vorgegebene Verhältnis gelten kann. Pegelmäßige Veränderungen der frühen Reflexionen sind im Rahmen einer Musikmischung zulässig, solange sie ein gewisses Maß nicht überschreiten. Inwieweit dies von der Charakteristik des jeweiligen Messraums abhängig ist, müsste jedoch im Rahmen weiterer Messungen überprüft werden. 42 Auswertung der Parameter „Sicherheit“ und „Natürlichkeit“ aus Abschnitt 1 und 2 Unabhängig von der tatsächlichen Angabe der Richtung wurde für die Abschnitte 1 und 2 in einem Diagramm der Parameter „Sicherheit“ aufgetragen. Abbildung 28: Mittelwerte für den Paramter Sicherheit Aus dieser Darstellung lässt sich klar ablesen, dass die subjektiv empfundene Sicherheit, mit der die Probanden glaubten, einem Stimulus seine Richtung zuweisen zu können, in keinem Zusammenhang mit dem verwendeten Auralisationsmuster steht. Allein die Richtung der Stimuli ist hierfür ausschlaggebend. Hierbei erweisen sich die 0°- und 180°-Richtung als besonders problematisch. Auch der Parameter „Natürlichkeit“ weist in seinem Verlauf eine ähnliche Struktur auf. Abbildung 29: Mittelwerte für den Paramter Natürlichkeit Es ist auch hier ersichtlich, dass Quellen aus der 0°- und 180°-Richtung tendenziell als unnatürlich klingend empfunden werden. Lediglich Quellen, die mit einem nachträglich auralisierten Reflexionsmuster versehen waren, wurden in ihrer Gesamtheit deutlich schlechter beurteilt. Offenbar werden Reflexionen aus derselben Richtung wie der Stimulus als sehr unnatürlich empfunden und wirken sich im Vergleich zu einer trockenen HRTF nicht gewinnbringend aus. Zusammenfassung der Ergebnisse aus Abschnitt 1 und 2 Die Ergebnisse legen nahe, dass sich durch die Verwendung von BRIRs eine deutliche, objektive Verbesserung in Bezug auf die Lokalisation von Quellen bewirken lässt. Diese Verbesserung ist 43 ausschließlich in der binauralen Struktur des Reflexionsmusters begründet und nicht in dem reinen Vorhandensein früher Reflexionen. Das Pegelverhältnis, in dem die frühen Reflexionen dabei zum Direktsignal stehen, ist hierbei von untergeordneter Bedeutung. 3.2.3 Testabschnitt 3 Vor der Auswertung von Abschnitt 3 wurde zunächst mit einem Chi-Quadrat-Test überprüft, ob die Reihenfolge der Hörbeispiele möglicherweise die Ergebnisse beeinflusste. Dies konnte jedoch ausgeschlossen werden. Auch die Signifikanz der Ergebnisse untereinander wurde mit einem Chi-Quadrat-Test überprüft, getrennt nach Durchführungsmodus (online / im ETI). Hierbei stellte sich heraus, dass die Werte für die Angabe der Vorne-/Hinten-Lokalisation im Falle des online durchgeführten Tests nicht aussagekräftig waren. Diese Daten wurden daher für die Betrachtungen in Abschnitt 3 verworfen. Die Gründe hierfür müssten sicherlich näher untersucht werden; es kann aber davon ausgegangen werden, dass die Verwendung zum Teil minderwertiger Kopfhörer hierbei eine Rolle gespielt hat. Die Abbildungen 30 und 31 zeigen die Mittelwerte der gemachten Angaben für Vorne- und HintenLokalisation aus Abschnitt 3 für den im ETI durchgeführten Test. Die Balken zeigen einen Vertrauensbereich von 95% an, d.h. unter der Annahme einer Normalverteilung liegen 95% aller Werte in dem jeweils angezeigten Bereich. Abbildung 30: Mittelwerte der Angaben für Vorne-Lokalisation nach Modifikation Dabei ist: 0° vollständige BRIR für ϕ = 0° Blauert V virtuelle Phantomschallquelle auf einer Basis von 60° (ϕ1 = -30°, ϕ2 = +30°), in Kombination mit der unter 3.1.3 beschriebenen Filterung Phantom V virtuelle Phantomschallquelle auf einer Basis von 60° Maximal leicht bewegte virtuelle Phantomschallquelle auf einer Basis von 60° in Kombination mit der unter 3.1.3 beschriebenen Filterung Bewegt leicht bewegte virtuelle Phantomschallquelle auf einer Basis von 60° Zunächst einmal ist anzumerken, dass die als „Blauert V“ bezeichnete Modifikation der Filterung auf dem Prinzip der virtuellen Phantomschallquelle aufbaut. Daher ist aus Abb. 30 abzuleiten, dass die 44 Abbildung 31: Mittelwerte der Angaben für Hinten-Lokalisation nach Modifikation Vorne-Lokalisation im Falle von „Blauert V“ zwar stabiler gelingt als bei einer 0°-BRIR, die Anwendung der Filterung aber offensichtlich zu einer Verschlechterung führt, verglichen mit einer virtuellen Phantomschallquelle („Phantom V“). Bei letzterer kann im Vergleich zur Verwendung einer 0°-BRIR ein signifikanter Gewinn für die VorneLokalisation festgestellt werden. Die Bewegung der Schallquelle sorgte dagegen für eine deutlichere Verschlechterung der Ortung. Die Wahrnehmung der meisten Probanden kippte in diesem Fall nach hinten, obwohl auch hier vordere BRIRs für ϕ1 = -30° und ϕ2 = +30° verwendet wurden. Offenbar wirken diese Bewegungen eher irritierend. Für die Hinten-Lokalisation (Abb. 31) kann kein Gewinn durch Verwendung einer Frequenzgangkorrektur („Blauert H“) oder virtueller Phantomschallquellen („Phantom H“) festgestellt werden. Abbildung 32: Abbildungsschärfe: 1 = sehr scharf, ..., 4 = sehr unscharf Abbildung 33: Klangfarbe: 1 = neutral, 2 = leicht verfärbt, 3 = stark verfärbt 45 Die Abbildungen 32 und 33 zeigen die Mittelwerte der gemachten Angaben zu Klangfarbe und Abbildungsschärfe. Auffällig ist, dass die beiden Abschnitte miteinander korrelieren. Die Verwendung einer Frequenzgangkorrektur („Blauert V“ und „Blauert H“) führt erwartungsgemäß zu einer deutlichen Verschlechterung der Klangfarbe. Interessanterweise scheint dagegen die Verwendung einer virtuellen Phantomschallquelle die wahrgenommene Klangfarbe zu verbessern. Bei der Abbildungsschärfe kommt es dabei offenbar zu keiner Verschlechterung, obwohl im Falle der Phantomschallquelle jeweils zwei virtuelle Quellen verwendet werden. Sogar für den hinteren Bereich, in dem nach Abb. 31 die virtuelle Phantomschallquelle in der Ortung schlechter abschneidet, wurde von den meisten Probanden eine angenehmere Klangfarbe und eine bessere Abbildungsschärfe derselben wahrgenommen als dies bei der echten 180°-BRIR der Fall war. Eine Bewegung der Phantomschallquellen scheint in der Wahrnehmung der Probanden die Abbildungsschärfe negativ zu beeinflussen, während die Bewertung der Klangfarbe im Vergleich zur 0°-BRIR unberührt bleibt. Zusammenfassung der Ergebnisse aus Abschnitt 3 In Abschnitt 3 konnte gezeigt werden, dass die Verwendung virtueller Phantomschallquellen im vorderen Bereich ein wirksames Mittel zur Reduzierung von Vorne-Hinten-Vertauschung darstellt. Auch auf die Parameter Klangfarbe und Abbildungsschärfe wirkt sich eine Verwendung derselben positiv aus. Bewegte Phantomschallquellen hingegen bewirken eine deutlich verschlechterte Lokalisation bei gleichzeitig abnehmender Abbildungsschärfe. Eine Wirksamkeit der in dieser Arbeit vorgestellten Frequenzgangkorrektur konnte weder für den vorderen noch für den hinteren Bereich nachgewiesen werden. Für die Hinten-Lokalisation empfiehlt sich daher zusammenfassend die Verwendung einer 180°-BRIR, für vorne dagegen virtuelle Phantomschallquellen. 3.2.4 Testabschnitt 4 Vor der Auswertung von Abschnitt 4 wurde zunächst mit einem Chi-Quadrat-Test überprüft, ob die Reihenfolge der Hörbeispiele möglicherweise die Präferenz für eine der vorgestellten Mischungen beeinflusste. Dies konnte jedoch ausgeschlossen werden. In Bezug auf die vergebenen Schulnoten konnte eine klare Antworttendenz festgestellt werden: Hier schnitten alle Mischungen etwa gleich gut ab, lediglich das Popmusikbeispiel in Binauralsynthese wurde fast durchgehend schlechter bewertet (vgl. Abb. 34). Besonders die Tonmeister und Tonmeisterstudenten bewerteten dieses Beispiel negativ (vgl. Abb. 35). Zwischen der Online-Befragung und der Befragung vor Ort konnte dabei kein signifikanter Unterschied festgestellt werden, so dass alle 62 Testbögen in diese Auswertung gleichermaßen eingingen. Abbildung 34: Mittelwerte der vergebenen Schulnoten 46 Abbildung 35: Mittelwerte der vergebenen Schulnoten nach Beruf Die 62 ausgewerteten Fälle unterschieden sich dabei in ihrer Präferenz wie folgt: Abbildung 36: Bevorzugte Mischung im Fall der Choraufnahme (links) und des Popsongs (rechts) Die Mischung des Chorstückes in Binauralsynthese wurde der Kunstkopfaufnahme gegenüber also als qualitativ gleichwertig empfunden. Immerhin eine Zahl von 11 Probanden (17,7%) konnte sich hier für keine bevorzugte Mischung entscheiden. Die Mischung des Popsongs in Binauralsynthese wurde dagegen nur in etwa 25,8% der Fälle bevorzugt. Um Rückschlüsse auf die zugrunde liegenden Bewertungskriterien der Probanden ziehen zu können, wurden die freien Kommentare aus Abschnitt 4 jeweils in sogenannte „Wortwolken“ umgewandelt. Bei dieser Art der Darstellung erscheinen häufig genannte Wörter in großer, selten genannte in kleiner Schriftgröße (Abb. 37 und Abb. 38). Für die Choraufnahme lagen hierfür 53, für die Popmusikmischung 57 auswertbare Kommentare vor. Kommentare zur Choraufnahme Abbildung 37 veranschaulicht, dass zur Bewertung von den Probanden besonders die Räumlichkeit und die Lokalisation der Einzelquellen herangezogen wurden. Die einzelne Betrachtung der Kommentare zum Vergleich der Binauralsynthese mit der Kunstkopfaufnahme zeigt dies deutlich. Eine entsprechende Auflistung aller Kommentare, sortiert nach Präferenz, findet sich in Anhang 1. Bei Betrachtung der Kommentare ist auffällig, dass die beiden Kriterien „Räumlichkeit“ und „Lokalisation“ für unterschiedliche Argumentationen dienen. Insgesamt überwiegt aber die Meinung, dass die binaurale Nachmischung eher zugunsten der Lokalisation, die Kunstkopfaufnahme dagegen eher zugunsten der Räumlichkeit ausgefallen zu sein scheint. Lediglich einige wenige Kommentare (vgl. Anhang 1, unten) erwähnen als weiteres Kriterium die Klangfarbe der Mischungen. 47 Abbildung 37: Wortwolke der Kommentare zur Choraufnahme Abbildung 38: Wortwolke der Kommentare zur Popmusikaufnahme Kommentare zur Popmusikaufnahme Die Wortwolke in Abbildung 38 zeigt dagegen deutlich, dass im Falle der Popmusikaufnahme besonders auf die Gesangsstimme geachtet wurde. Hierbei wurde offenbar vielfach eine Verfärbung festgestellt. Eine Auflistung der Kommentare nach Präferenz (s. Anhang 2) zeigt dies noch einmal deutlich. Neben der Verfärbung der Gesangsstimme wurden in vielen Fällen die unterschiedlichen Lautstärkeverhältnisse der Einzelquellen bemängelt. Tatsächlich glichen sich die Pegelverhältnisse innerhalb der beiden Mischungen keineswegs, wie in Kapitel 5.6.2 nachzulesen ist. Diese verschiedenen Lautstärkeverhältnisse wurden jedoch je nach Geschmack unterschiedlich von den Probanden bewertet. Ein häufig genannter Kritikpunkt ist dagegen die Räumlichkeit der Popmusikmischung im Falle der Binauralsynthese. Dies ist auf die Verwendung der BRIRs zurückzuführen, die natürlich ein vorgegebenes binaurales Reflexionsmuster aufweisen. Das in der Mischung eingesetzte Wandern der Quellen in der Binauralsyn48 these wurde vielfach positiv bewertet oder als interessanter Effekt eingestuft. Des weiteren wurde dabei häufig die Durchsichtigkeit des Arrangements positiv bewertet. Dies kann unter Umständen tatsächlich mit der binauralen Platzierung der Einzelstimmen zusammenhängen (vgl. hierzu 5.5.1). Da der negative Eindruck der Verfärbung in den meisten Fällen überwog, wurde trotzdem mehrheitlich die raumbezogene Mischung bevorzugt. Insgesamt ist bemerkenswert, dass nur selten („Gewohnheit“ als Kriterium genannt wurde („es klingt so wie gewohnt“, „es klingt ungewohnt“). Es bleibt dennoch unklar, inwieweit die Frage eine Rolle spielt, ob der Proband an kopfbezogene Mischungen von Popmusik gewöhnt ist oder nicht. Zusammenfassung der Ergebnisse aus Abschnitt 4 Die Kommentare, die von den Probanden abgegeben wurden, waren in den meisten Fällen zu sehr auf die einzelnen Mischungen bezogen, um daraus allgemeine Feststellungen ableiten zu können. Es konnte aber insgesamt gezeigt werden, dass die vorgestellte Methode der Binauralsynthese qualitativ einer Kunstkopfaufnahme desselben Schallereignisses gleichen kann. Es zeigte sich zudem, dass die binaurale Synthese in der vorgestellten Form ausreichend funktioniert, um ein klanglich und ästhetisch befriedigendes Ergebnis erzielen zu können. 49 4 Fazit Die in dieser Arbeit vorgestellte Methode der binauralen Synthese auf der Grundlage gemessener Raumimpulsantworten stellt für den Tonmeister ein wirksames Mittel für eine künstlerisch und ästhetisch relevante nachträgliche Binauralisierung einer Mehrspurproduktion dar. Anhand des durchgeführten Hörvergleichs wurden der Einfluss echter binauraler Reflexionsmuster sowie mehrere Möglichkeiten zur Modifikation binauraler Raumimpulsantworten untersucht und unterschiedliche Mischungen einander gegenübergestellt. Hierbei zeigte sich, dass Impulsantworten mit echten Reflexionsmustern die Ortung innerhalb der binauralen Synthese deutlich verbessern. Auch konnte gezeigt werden, dass die Verwendung virtueller Phantomschallquellen über einer Basis von 60° im vorderen Bereich die Vorne-Lokalisation unterstützt und damit ein wirksames Mittel zur Bekämpfung von Vorne-Hinten-Vertauschungen darstellt. Schließlich ließ sich aus den Versuchen ableiten, dass sich mit der Binauralsynthese in vorgestellter Form qualitativ gleichwertige Mischungen zu Kunstkopfaufnahmen desselben Schallereignisses erstellen lassen. Eine Wirksamkeit von Frequenzgangkorrekturen auf der Basis der Blauertschen Bänder müsste in einer weiterführenden Arbeit getrennt von der Verwendung virtueller Phantomschallquellen untersucht werden. In dieser Arbeit konnte keine Wirksamkeit festgestellt werden. Weiterführende Anwendungs- und Verbesserungsmöglichkeiten sowie Anknüpfungspunkte für weitere Arbeiten sind so umfangreich, dass wir für dahingehende Betrachtungen auf Kapitel 5 (Appendix) verweisen möchten. 50 5 Appendix Im Folgenden möchten wir besonders auf die praktische Umsetzung und die daraus resultierenden Chancen und Probleme eingehen. Dieses Kapitel richtet sich speziell an Tonmeister, die an einer Umsetzung interessiert sind, bzw. die zu diesem Thema praktisch beisteuern möchten. Im Rahmen dieser Diplomarbeit haben wir eine Vielzahl an Mischungen mit der in Kapitel 2 vorgestellten Methode erstellt. Einige Aussagen entspringen lediglich unseren dabei gemachten persönlichen Erfahrungen und bedürfen noch einer wissenschaftlichen Überprüfung. Wir würden uns freuen, wenn dieses Kapitel als Anreiz für weitere Arbeiten in dieser Richtung dienen oder zur Diskussion anregen könnte. 5.1 5.1.1 Betrachtungen zur Aufnahme Hauptmikrofonsysteme Die nachträgliche Binauralisierung einer Mehrspuraufnahme erfolgt in der vorgestellten Methode in erster Linie durch die Platzierung der Stützmikrofonsignale. Nur auf diese Weise können einzelnen Schallquellen, z.B. einzelnen Instrumentengruppen, eigene diskrete Richtungen zugewiesen werden. Das traditionelle Konzept, bei einer Aufnahme in erster Linie vom Hauptmikrofonsystem auszugehen, erscheint daher in unserem Fall als nicht mehr dem Wiedergabesystem angemessen. Der klangliche Vorteil eines Hauptmikrofonsystems, eine Kombination unterschiedlicher Klangquellen als einen gemeinsamen Klangkörper abzubilden, bleibt aber natürlich weiterhin erhalten. Da bei der ausschließlichen Verwendung von Stützmikrofonen auch bei der binauralen Simulation immer die Gefahr eines Auseinanderfallens der Mischung besteht [vgl. Ratay 2004], möchten wir empfehlen, traditionelle Hauptmikrofonsysteme bei der Aufnahme auch dann zu verwenden, wenn über die Erstellung einer binauralen Mischung nachgedacht wird. Als alternatives oder zusätzliches Hauptmikrofon empfiehlt sich die Verwendung eines Kunstkopfes. [Ratay 2004] hat gezeigt, dass bei der Kombination aus Kunstkopf- und binauralisierten Stützmikrofonsignalen befriedigende Ergebnisse erzielt werden können. 5.1.2 Aufstellung der Stützmikrofone Den Stützmikrofonen kommt bei Aufnahmen für binaurale Mischungen eine besondere Bedeutung zu. Wie in Kapitel 2. (Methode) zum Teil schon beschrieben wurde, sollten diese Mikrofonsignale bestimmte Forderungen erfüllen: – Sie sollten trocken sein. Die Folgen von halligen Stützsignalen bei der Binauralisierung wurden bereits unter 2.4.1 (Eindimensional abgebildete Räume) erläutert. – Sie sollten die Schallquelle möglichst ausgewogen abbilden. Dies kann evtl. zu dem gewünschten Anteil an Übersprechen (s.u.) im Widerspruch stehen. – Im besten Fall sollte zudem eine sehr große Anzahl an Stützmikrofonsignalen vorhanden sein, möglichst sogar für jede Schallquelle einzeln, was eine besonders plastische und gestaffelte Platzierung der Schallquellen ermöglicht. Sobald mehrere Schallquellen in einem Mikrofonsignal enthalten sind, können diese in der Mischung zwangsweise nur gemeinsam an einem Punkt platziert werden. – Ist es aufgrund der großen Anzahl an Mikrofonen möglich, jede Schallquelle (beispielsweise jedes Instrument in einem Streichorchester) einzeln zu positionieren, so ist ein möglichst geringer Anteil an Übersprechen in den Signalen wünschenswert, da nur so eine unabhängige Positionierung gewährleistet werden kann. Ist dagegen nur eine geringe Anzahl an Mikrofonen vorhanden, so kann Übersprechen zwischen den Signalen durch Phantomschallquellen auch zu einer flächigeren Abbildung führen und damit ein Auseinanderfallen der Mischung verhindern. Diese Entscheidung sollte vom Tonmeister daher unbedingt vorab getroffen werden. 51 Die Halligkeit der Stützmikrofonsignale sowie der Anteil an Übersprechen in den einzelnen Signalen wird schon durch die Wahl des Aufnahmeraumes wesentlich beeinflusst. Hier sollten unserer Meinung nach aber nach wie vor musikalische und ästhetische Gesichtspunkte ausschlaggebend sein. Eine gut funktionierende binaurale Simulation, die aber aufgrund der Räumlichkeit im Widerspruch mit dem musikalischen Duktus stünde, wäre lediglich als Experiment annehmbar. 5.2 5.2.1 Betrachtungen zur Mischung Platzierung von Stereosignalen In vielen Fällen liegt für eine zu binauralisierende Schallquelle ein Stereosignal vor, z.B. bei einer Stereo-Klavierstütze. In Kapitel 2.4 (Probleme der Methode) ist in dieser Hinsicht bereits ausgiebig über virtuelle Phantomschallquellen gesprochen worden, wobei die dort beschriebenen Probleme durch das vorgestellte Resampling der betroffenen Impulsantworten behoben werden können. Bei der Platzierung von Stereosignalen in der binauralen Mischung ist darüber hinaus auf zwei Dinge zu achten: – Verkleinerte Wiedergabebasis Je nach Korrelation der beiden Einzelkanäle wird die Wiedergabebasis der virtuellen Lautsprecher nicht komplett ausgenutzt, d.h. es entstehen ausschließlich Phantomschallquellen. Werden die beiden Kanäle des Stereosignals nun an zwei Panning Spots binaural platziert, die den ursprünglichen Orten der Mikrofone im Aufnahmeraum entsprächen, so erscheint dieses aufgrund der verkleinerten virtuellen Wiedergabebasis zu schmal und die Quelle damit zu klein. Tatsächlich sollte der virtuelle Abstand der beiden Panning Spots für links und rechts also den 60° einer gewöhnlichen Lautsprecherbasis entsprechen. Besonders tückisch, weil unerwartet, wirkt sich diese Tatsache bei Übersprechen aus. Betrachten wir zur Erläuterung das in 2.4.3 (Zusammenfallen des Raumes durch Spiegelung der gemessenen Impulsantworten) erwähnte Beispiel der Flöten- und Oboenstütze innerhalb einer mehrspurigen Orchesteraufnahme. Durch Übersprechen erscheinen Flöte 1 und Oboe 1 bei der Wiedergabe über eine virtuelle Lautsprecherbasis als Phantomschallquellen. Werden die beiden Lautsprecher nun an die Panning Spots gesetzt, die der Position der Flöten bzw. der Oboen im Aufnahmeraum entsprächen, so erscheinen sie aufgrund dieser kleineren Basis zur Mitte hin gestaucht. – Seitwärtige Platzierung Eine Abbildung von Phantomschallquellen wird immer schwieriger, je weiter sich der Mittelpunkt der virtuellen Lautsprecherbasis von ϕ = 0° in der Horizontalebene entfernt, da bei seitwärtiger Platzierung weniger auswertbare interaurale Laufzeit- und Pegeldifferenzen vorhanden sind. Dieses Problem besteht in ähnlicher Form auch bei 5.1 Surround, wo es nur schwer möglich ist, Phantomschallquellen seitlich zu positionieren. Die binaurale Simulation hat dabei aber zwei Vorteile: Zum einen ist es möglich, die virtuellen Lautsprecher tatsächlich zu verschieben, so dass zumindest über einen größeren Bereich Phantomschallquellen abbildbar bleiben, zum anderen ist eine Quelle natürlich auch bei ϕ = 90° deutlich zu orten, wenn eine entsprechende BRIR ausgewählt wird. In diesem Falle wäre nur die Bildung von Phantomschallquellen nicht möglich, und man müsste über eine klanglich befriedigende Platzierung des jeweils zweiten Kanals nachdenken. 52 5.2.2 Platzierung von Hauptmikrofonsignalen Wie schon mehrfach erwähnt, stellt die Positionierung von halligen Signalen bei der vorgestellten Methode ein Problem dar (s. 2.4.1 sowie 5.1.2). Da bei einem raumbezogenen Hauptmikrofon zudem keine binauralen Richtungsinformationen über die an der Zusammensetzung des Signals beteiligten Einzelquellen vorhanden sind, lässt sich ein solches erfahrungsgemäß nicht platzieren, ohne dabei die binaurale Simulation zu beeinträchtigen. Daher stellt sich die Frage, wie mit raumbezogenen Hauptmikrofonsignalen in der binauralen Mischung umzugehen ist. Häufig kann es je nach Anzahl und Qualität der Stützmikrofone eine Möglichkeit sein, ohne Verwendung solcher Signale zu arbeiten. Bei Aufnahmen, die auf traditionelle raumbezogene Mischungen ausgelegt wurden, werden jene entsprechenden Voraussetzungen aber nur selten erfüllt. In unseren eigenen Mischversuchen kristallisierte sich als klanglich befriedigendste Positionierung die Wiedergabe über ein virtuelles Lautsprecherpaar mit einer Basis von 60° heraus. Dabei wirken die binaural platzierten Stützen gewissermaßen als Ergänzung für die fehlenden binauralen Richtungsinformationen des Hauptmikrofonsignals. Die Ortung verschlechtert sich dennoch erfahrungsgemäß durch die Verwendung des Hauptmikrofonsignals, wobei dies je nach Qualität der Stützmikrofonsignale trotzdem der klanglich befriedigendste Kompromiss sein kann. Die Verwendung von raumbezogenen Hauptmikrofonsystemen in der binauralen Synthese müsste gründlich in einer weitergehenden Arbeit untersucht werden. 5.2.3 Platzierung von Raummikrofonsignalen Wird ein Hauptmikrofon verwendet, so kann dies zu Konflikten zwischen der Räumlichkeit des Aufnahmeund des Messraumes führen. Einen Ausweg bietet hierbei die Verwendung von Raummikrofonen. Bei entsprechender Verkürzung der BRIRs um die Nachhallfahne ist es möglich, sich dem Aufnahmeraum über die Positionierung von Raummikrofonsignalen klanglich anzunähern. Im Hörvergleich zeigte sich, dass binaurale Reflexionsmuster zur Außer-Kopf-Lokalisation wesentlich beitragen (s. 3.2.1). Daher empfehlen wir, bei einer Verkürzung der BRIRs unbedingt die Beibehaltung des binauralen Reflexionsmusters. Zumindest ein Konflikt zwischen den frühen Reflexionen des Aufnahmeraumes und des Messraumes wird also unvermeidbar bleiben. Grundsätzlich ist es naheliegend, bei der Positionierung von Raummikrofonsignalen die Panning Spots so zu wählen, dass sie den Positionen der Mikrofone im Aufnahmeraum entsprechen. Auf diese Weise kann eine korrekte Abbildung der Raumgeometrie gewährleistet werden, und widersprüchliche Richtungsinformationen aufgrund von falschen Laufzeiten werden vermieden. 5.2.4 Folgen von Übersprechen Unter 5.2.1 (Platzierung von Stereosignalen) ist bereits angesprochen worden, dass Übersprechen in Signalen zu einer scheinbaren Verkleinerung der Quellen führen kann, wenn dies vom Tonmeister nicht durch Spreizung der beteiligten virtuellen Lautsprecher kompensiert wird. Wie bei Mischungen für raumbezogene Wiedergabesysteme kann es bei starkem Übersprechen aber auch zu widersprüchlichen Richtungsinformationen bei der räumlichen Verteilung der Einzelquellen kommen. So wäre es beispielsweise möglich, in einer Orchesteraufnahme aufgrund ihrer instrumentenspezifischen Abstrahlcharakteristik ein starkes Übersprechen der Blechbläser im Signal der Violoncellostütze zu erhalten. Bei der binauralen Positionierung der Violoncellogruppe würden die einer einzelnen Trompete zuzuordnenden Signalanteile sowohl aus der binauralen Position der Trompete als auch aus der der Violloncellogruppe erklingen. Dies könnte eine erhebliche Störung der binauralen Simulation bewirken. Um die Geometrie der Aufnahmesituation laufzeitrichtig abzubilden, kann es hilfreich sein, bei der Verteilung der Einzelsignale nicht von den Positionen der zugrunde liegenden Schallquellen, sondern von den Positionen der Mikrofone auszugehen. Entsprechend sollten laufzeitrichtige BRIRs verwendet oder die Laufzeit durch ein nachträgliches Delay angeglichen werden (vgl. hierzu 2.2, Erfassung und Sortierung der Messdaten). 53 Darüber hinaus lassen Intensität und Ort des Übersprechens auch Rückschlüsse über die Geometrie des Aufnahmeraumes zu. Inwieweit diese Informationen vom Gehör bei einer Binauralisierung in der vorgestellten Form ausgewertet werden können, wäre Aufgabe einer weiterführenden Arbeit. Möglicherweise wäre dies sogar ein Hinweis darauf, dass Aufnahme- und Messraum eine ähnliche Geometrie aufweisen sollten. 5.2.5 Einstellung der Distanz Die Wahrnehmung von Nähe und Distanz einer Schallquelle ist ein psychoakustisches Phänomen, das sehr eng mit der Struktur der Reflexionen und des Nachhalls sowie in besonderem Maße mit deren Verhältnis zum Direktschall verknüpft ist. Darüber hinaus spielen bei sehr großen Entfernungen auch Dissipationseffekte der Luft eine Rolle, die sich in Form einer leichten Dämpfung zu hohen Frequenzen hin bemerkbar machen [vgl. Meyer 1999]. Im Falle der binauralen Mischung stehen uns mehrere Möglichkeiten zur Verfügung, um die wahrgenommene Distanz einer Schallquelle zu beeinflussen. Wie bereits erwähnt, wurden Überlegungen zur Distanzwahrnehmung schon bei der Messung der BRIRs berücksichtigt. Darum liegen uns die Impulsantworten zu jeder Richtung prinzipiell für mehrere gemessene Distanzen vor. Damit ist es also schon durch die Auswahl einer entsprechenden Impulsantwort möglich, die Quelle aus einer eher großen oder eher kleinen Entfernung erklingen zu lassen. Dennoch wird es in vielen Fällen wünschenswert sein, die Entfernung einer Schallquelle stufenlos einstellbar zu machen. Aus der Tatsache, dass eine kürzere Distanz zur Schallquelle nach dem 1/r-Gesetz in erster Linie eine Anhebung des Direktschall-Pegels gegenüber dem konstanten Diffusschall-Anteil bedeutet, lässt sich umgekehrt schlussfolgern, dass das tatsächliche Verhältnis zwischen Direktschall und Diffusschall maßgeblich für die wahrgenommene Distanz verantwortlich ist. Dieses Verhältnis zu beeinflussen ist also – wenn auch in gewissen Grenzen – gleichbedeutend mit einer Veränderung der wahrgenommenen Distanz. 5.2.6 Zusätzlicher Nachhall Um noch mehr Freiheiten bei der klanglichen Gestaltung zu erhalten, kann an Stelle des diffusen Nachhalls der BRIR auch ein gewöhnlicher künstlicher Hall oder Faltungshall in die Mischung integriert werden. Es ist dabei jedoch unbedingt darauf zu achten, dass lediglich diffuser Nachhall zugemischt wird. Eventuelle zusätzliche frühe Reflexionen würden durch ihre nicht-binaurale Beschaffenheit und ihre zeitlich verschiedene Struktur das vorgegebene binaurale Reflexionsmuster beeinträchtigen und somit dem natürlichen Raumeindruck und der Lokalisierbarkeit der Quellen entgegenwirken. Eine diffuse Hallfahne beeinträchtigt dagegen die Lokalisierbarkeit der Schallquellen nicht und kann zudem einem natürlicheren Raumeindruck zuträglich sein. Weiterhin ist zu bemerken, dass eine Binauralisierung des beigemischten, rein diffusen Nachhalls nicht erforderlich ist. Wenn dieser eine hohe Dekorrelation zwischen linkem und rechtem Kanal aufweist, so ist er aus keiner bestimmten Richtung ortbar. Die Beaufschlagung des Nachhalls mit einer oder mehreren HRTFs wäre dagegen wiederum gleichbedeutend mit der Zuweisung einer Richtung, und dies stünde der Natur eines nicht ortbaren, diffusen Nachhalls entgegen. 5.2.7 Bassmanagement: virtueller Subwoofer Die verwendeten BRIRs erstrecken sich mit einer Bandbreite von 50 Hz bis 18 kHz zwar über einen ausreichend großen Frequenzbereich, jedoch hat sich aus der Erfahrung gezeigt, dass die Binauralsynthese bei all ihren Vorzügen doch gerade im Tiefbassbereich manch effektvolles Klangerlebnis zunichte machen kann. Besonders problematisch erweist sich dies bei Bassinstrumenten, deren klanglicher Charakter maßgeblich für den Gesamtklang einer Mischung verantwortlich ist. Eine Bassdrum beispielsweise klingt nach der Faltung mit einer BRIR nicht mehr annähernd so druckvoll wie zuvor, sondern scheint ihre ganze 54 Kraft verloren zu haben. Auch ein Kontrabass ist hiernach nicht mehr in der Lage, ein ausreichendes Fundament für den Orchesterklang zu liefern. Er wirkt schwach und „verwaschen“, auch dann, wenn sein Grundton oberhalb von 50 Hz in dem Bereich liegt, der durch die BRIR noch übertragen wird. Dennoch möchte man in manchen Fällen nicht auf die Binauralisierung der Bassinstrumente verzichten, gerade wenn diese nicht ausschließlich tiefe Frequenzen erzeugen. Die Tatsache, dass sich für die Ortung von Schallsignalen vorwiegend Frequenzen verantwortlich zeichnen, die erst in solchen Bereichen liegen, in denen Abschattungseffekte an Kopf und Schulter bereits zum Tragen kommen, kann bei diesem Problem Abhilfe schaffen. Damit eröffnet sich die Möglichkeit, Signale in unterschiedlichen Frequenzbändern getrennt zu behandeln und auf diesem Wege nur die für die Lokalisation verantwortlichen Frequenzbereiche, die deutlich oberhalb von 150 Hz gelegen sind, zu binauralisieren, während tiefe Frequenzen – auch bis unterhalb der 50 Hz-Messgrenze der BRIRs – unverändert passieren können. 5.2.8 Parallelen und Gegensätze zwischen raum- und kopfbezogenen Mischungen Raumbezogene Mischung Kopfbezogene Mischung Panning Auswahl der BRIR Anheben des Stützmikrofonpegels Anheben des Pegels der Einzelquelle und Verringerung des Anteils der frühen Reflexionen innerhalb der BRIR (kleinere Distanz) Anheben des Pegels der Raummikrofone oder Absenken des Direktsignals (der HRTF) innerdes Hauptmikrofonsystems halb aller BRIRs Auswahl des Aufnahmeraumes Auswahl des Messraumes (aus einer Datenbank) und des Aufnahmeraumes Hinzufügen von Hall Austauschen oder Anheben der Nachhallfahne innerhalb der BRIR oder zusätzliche Verhallung Der Ort eines Eingriffs innerhalb der Signal- Der Ort eines Eingriffs innerhalb der Sikette wirkt sich nicht auf die Funktionalität gnalkette wirkt sich auf die Funktionalität der raumbezogenen Wiedergabe aus der kopfbezogenen Wiedergabe aus, wenn er nichtlinear oder zeitvariant ist Frequenzgangkorrekturen wirken sich nicht Starke Frequenzgangkorrekturen können sich auf die Funktionalität der raumbezogenen auf die Funktionalität der kopfbezogenen WieWiedergabe aus dergabe auswirken, wenn sie der Ortung von Schallquellen in bestimmten Richtungen entgegenwirken Tabelle 4: Parallelen und Gegensätze zwischen raum- und kopfbezogenen Mischungen 5.2.9 Überlegungen zu Rock/Pop/Jazz Alle bisher angestellten Überlegungen bezogen sich besonders auf das bei Aufnahmen klassischer Musik für gewöhnlich angewendete System Hauptmikrofon/Stützmikrofone. Da bei U-Musik die Herangehensweise schon bei der Aufnahme im Allgemeinen eine andere ist, stellen sich auch bei der Mischung einige spezielle Fragen. 55 Zunächst einmal ist anzumerken, dass die Konzertsituation in weiten Teilen der U-Musik (mit Ausnahme insbesondere des Jazz) nur bedingt dazu geeignet ist, als Vorlage für eine binaurale „Nachbildung„ zu dienen. Zudem könnte man feststellen, dass besonders bei Rock- und Popmusik die fertige Mischung eines Songs als das eigentliche, gültige Kunstwerk angesehen werden kann. In vielen Fällen ist es darüber hinaus sogar außerordentlich schwierig, Unterschiede zwischen Arrangement, Songwriting und künstlerischer Mischung des Titels auszumachen. Anders als bei klassischer Musik, wo (in den meisten Fällen) die binaural erlebte Konzertsituation den Maßstab bilden kann, ist aufgrund der Verbreitung raumbezogener Wiedergabeverfahren die U-Musik somit eine überwiegend zweidimensionale Kunst. Jede vorgenommene Binauralisierung wird hier aus diesem Grund besonders auffallen. Insbesondere ergibt sich daraus aber auch ein Problem im Hinblick auf die Räumlichkeit. Die vielfach verwendeten Kombinationen verschiedener, auf die Schallquellen angepasster Hallprogramme müssten binaural in eine Kombination unterschiedlicher Räumlichkeiten transferiert werden. Inwieweit dies die binaurale Simulation zerstören könnte, müsste untersucht werden. Unter Umständen wäre es ausreichend, in einem übergeordneten Raum am Ort der zugeordneten Schallquellen eindimensionale künstliche Räume über eine kleine virtuelle Lautsprecherbasis zu platzieren. Dementsprechend sollten Delayeffekte, ähnlich dem Surround-Delay einiger kommerzieller Plugins, durch frei positionierbare Spiegelquellen abgebildet werden. Insgesamt bietet die Binauralisierung aber gerade für Mischungen von U-Musik eine große Chance, da hier traditionell ein künstlerisch freier und zum Teil experimenteller Umgang mit der Technik vorhanden ist. Nicht zuletzt wird ein großer Teil der U-Musik ohnehin überwiegend mit Kopfhörern konsumiert. Auch Kombinationen aus In-Kopf- und Außer-Kopf-Lokalisation wären im Bereich der U-Musik so besonders gut denkbar (vgl. 5.5.4 und 5.5.5). 5.3 Tipps für die Einbindung in die DAW Die praktische Realisierung von Musikmischungen mit Hilfe von BRIRs verlangt in vielen Fällen den Aufbau sehr komplexer DAW-Projekte. Solange noch kein eigens auf diese Anwendung zugeschnittenes Plugin existiert, erfordert insbesondere die systematische Realisierung einiger der bereits beschriebenen Optimierungsansätze, wie zum Beispiel das Ersetzen einer Einzelschallquelle durch eine Phantomschallquelle oder die stufenlose Einstellung der Distanz, einen sehr hohen – und nicht immer praktikabel erscheinenden – Aufwand. Zur Gewährleistung einer flexiblen Arbeitsweise ist es daher umso mehr notwendig, auf einen übersichtlichen Aufbau der Projekte zu achten. Im Folgenden sollen einige praktische Schritte beschrieben werden, die dabei helfen können, die konkrete Umsetzung von Mischungen in einer DAW-Umgebung zu erleichtern. Busse Häufig empfiehlt es sich, die Faltung mit einer BRIR nicht unmittelbar in dem zu bearbeitenden Kanal durchzuführen, sondern für die Auralisation nachgeschaltete Busse bereitzuhalten. Insbesondere bei Aufnahmen mit sehr vielen Spuren, bei denen unter Umständen auch mehrere Quellen aus ein und derselben Richtung abgebildet werden sollen, kann durch Verwendung von gemeinsamen Bussen die Zahl der Faltungen reduziert und die Übersichtlichkeit erhöht werden. In diesem Fall erfolgen im ursprünglichen Kanal lediglich die reguläre Klangbearbeitung und die Einstellung des Pegels. Die Auswahl einer Richtung geschieht durch die Aufschaltung auf den jeweiligen Bus. Phantomschallquellen Besonders bei der Erzeugung virtueller Phantomschallquellen entstehen durch die Verwendung von Bussen große Vorteile. In den häufigsten Fällen ist es erforderlich, mehr als nur eine Schallquelle im vorderen Bereich zu platzieren. Hier genügt es, für all diese einen gemeinsamen Stereo-Bus zu verwenden, der seinerseits einer virtuellen Stereobasis zugeführt wird. Alle Schallquellen, die innerhalb dieser Basis (beispielsweise +/- 30°) abgebildet werden sollen, werden gemeinsam auf diesen Bus aufgeschaltet. Die 56 Positionierung innerhalb der Basis erfolgt dann im jeweiligen Kanal mit Hilfe von Pegel-Panning. Dies reduziert die Zahl der Faltungen erheblich und ermöglicht ein weitaus übersichtlicheres Arbeiten. Mit Hilfe des Pegel-Pannings auf einen solchen nachgeordneten Bus lassen sich auch ohne eine Interpolation zwischen den BRIRs einfache automatisierte Bewegungseffekte realisieren. Distanzeinstellung Um das für die Distanzwahrnehmung ausschlaggebende Verhältnis zwischen Direktschall und Diffusschall einstellen zu können, ist es erforderlich, die zu verwendenden BRIRs in ihre Einzelkomponenten zu unterteilen. Solange keine Plugin-Lösung existiert, mit deren Hilfe die Komponenten der BRIR automatisch verwaltet werden können, muss dieser Schritt noch „von Hand“ in einem separaten Projekt erfolgen. Das Signal, dessen Distanz eingestellt werden soll, wird sodann zwei getrennten Kanälen oder Bussen zugeführt, in denen die Faltungen einzeln vorgenommen werden. Im einen Kanal erfolgt die Faltung mit der HRTF (Direktsignal), im anderen die Faltung mit dem Diffusschall-Anteil (Raumanteil der BRIR). Bei der anschließenden Aufsummierung kann das Pegelverhältnis zwischen den beiden Signalen beliebig angepasst und damit die gewünschte Distanz eingestellt werden. Hierbei ist jedoch unbedingt auf die korrekte Zeitverzögerung der Reflexionen gegenüber dem Direktschall zu achten. Zur Einstellung der Distanz genügt es in der Regel, die BRIR in die zwei genannten Bestandteile zu unterteilen. Möchte man jedoch zusätzlich auch den Pegel der Hallfahne getrennt einstellen oder diese gar durch eine andere Hallfahne ersetzen, so kann diese Prozedur natürlich auch auf drei Kanäle oder Busse ausgeweitet werden. Virtueller Subwoofer Auch der bereits erwähnte Ansatz der frequenzbandabhängigen Bearbeitung eines Signals zur Verbesserung der Basswiedergabe lässt sich praktisch umsetzen. Beispielsweise kann hierzu ein Aux-Bus die Rolle eines „virtuellen LFE-Kanals“ übernehmen. Auf diesen Bus werden Signale aus all den Kanälen ausgespielt, die wichtige, tieffrequente Komponenten enthalten. Über ein phasenlineares Tiefpass-Filter werden die Bassanteile dieser Signale direkt der Summe zugeführt. In den entsprechenden Kanälen dagegen sorgt jeweils ein komplementäres Hochpass-Filter dafür, dass die Signale von eben diesen tiefen Anteilen befreit werden und lediglich die für die Lokalisation maßgeblichen mittleren und hohen Frequenzanteile der Auralisation zugeführt werden. Unbedingt sind dabei jedoch die unterschiedlichen Laufzeiten der Signalwege zu beachten. Um bei der Summierung Auslöschungen im Übernahmebereich zu vermeiden, muss die Latenz, die aufgrund des minimalen Einschwingvorgangs der Impulsantwort bei der Faltung der Mittel-/Hochton-Signale hervorgerufen wird, durch eine entsprechende Verzögerung des besagten LFE-Kanals ausgeglichen werden. 5.4 Design eines VST Plugins Es wäre wünschenswert, die oben genannten Hinweise zur Einbindung in die DAW in ein VST-Plugin zu integrieren. Dieses könnte als ein einfaches binaurales Panning-Tool funktionieren, ginge dabei aber in seiner Funktionalität deutlich über ein gewöhnliches Faltungs-Plugin hinaus. Es sollte gleichzeitig sowohl eine differenzierte Auswahl und Modifikation der Impulsantworten als auch umfangreiche Funktionen wie das Erzeugen virtueller Phantomschallquellen auf einfachem Wege ermöglichen, ohne dass dabei noch eine komplizierte Signalführung in der DAW erforderlich würde. Unter den in unseren bisherigen Versuchen verwendeten Plugins seien zwei besonders hervorgehoben: Das Plugin SIR (Super Impulse Response) von Christian Knufinke, das sowohl in einer nicht-kommerziellen als auch einer kommerziellen Version (in erweitertem Umfang) zur Verfügung steht, erwies sich als ein besonders geeignetes Werkzeug für die Arbeit mit binauralen Raumimpulsantworten. Durch die einfache und direkte Auswahl von Impulsantworten sowie einige Möglichkeiten zu deren gezielter Modifikation konnte mit Hilfe dieses Plugins das Vorgehen in vielen Fällen erheblich vereinfacht werden. 57 Abbildung 39: GUI des VST-Plugin SIR Daneben wurde in Zusammenarbeit mit dem Programmierer Christian Budde ein Plugin entwickelt, das bereits die stufenlose Interpolation zwischen den gemessenen BRIRs erlaubt. In diesem PanningPlugin, das als Version für trockene HRTFs bereits unter dem Namen „hrtf3d“ existiert, ist die Auswahl der Richtung durch eine grafische Darstellung gelöst, in welcher ein räumlich abgebildeter Kopf, der die Blickrichtung des Hörers symbolisiert, mit Hilfe der Maus nach allen Freiheitsgraden gedreht werden kann. Abbildung 40: GUI des VST-Plugins HRTF3d 5.4.1 Entwurf eines idealen Plugins Im Folgenden soll das Konzept für ein „ideales“ Plugin dargelegt werden, wie es nach unserer Vorstellung und unter Berücksichtigung der aus der vorliegenden Arbeit gewonnenen Erkenntnisse einer Verwendung binauraler Raumimpulsantworten in Musikmischungen bestmöglich gerecht wird. Ein solches ideales Plugin sollte – eine übersichtliche Auswahl der Impulsantwort-Datenbanken, getrennt nach drei Komponenten (HRTF, Reflexionen, Hallfahnen), erlauben. – eine intuitive Auswahl der Richtung ermöglichen, wahlweise stufenlos interpoliert oder entsprechend der realen Messungen gerastert. – eine grafisch anschauliche Einstellmöglichkeit der Pegelverhältnisse zwischen Direktsignal, frühen Reflexionen und Nachhall bieten (z.B. drei einzelne Fader oder eine Hüllkurve). – Impulsantworten für die rechte Halbkugel durch Spiegelung und Resampling automatisch gewinnen. 58 – bei Auswahl von Richtungen zwischen +30° und -30° Schallquellen automatisch durch virtuelle Phantomschallquellen ersetzen. – einen „virtuellen LFE-Kanal“ ermöglichen, d.h. tiefe Frequenzen bei Bedarf von der Auralisation ausnehmen. Konzept eines idealen Plugins Das Plugin sollte derart ausgelegt sein, dass es stets ein Minimum an Ressourcen benötigte und somit die gleichzeitige Verwendung zahlreicher Instanzen erlaubte. Dies wäre von besonderer Bedeutung, da aufwändige binaurale Musikmischungen in der Praxis ohne Weiteres eine getrennte Auralisation in 20 oder mehr Kanälen gleichzeitig erforderlich machen können und dabei dennoch stets eine Bearbeitungsmöglichkeit in Echtzeit verlangen. Darum sollte das Plugin in seiner inneren Struktur so konzipiert sein, dass sein zentraler Echtzeit-relevanter Bestandteil in lediglich einer schnellen Faltung besteht. Diese Faltung ist der einzige Vorgang, der real in jedem Kanal durchgeführt werden müsste. Alle weiteren Funktionen sind so beschaffen, dass sie auf einmalige Berechnungen reduziert werden können, die direkt in die verwendete Impulsantwort mit eingehen. Jede Änderung eines Parameters (z.B. Richtung, Pegelverhältnis, Erzeugen einer virtuellen Phantomschallquelle) hat demnach eine Neuberechnung der Impulsantwort zur Folge. Diese Berechnung könnte demnach im Hintergrund erfolgen, ohne dabei die Echtzeitwiedergabe einzuschränken. Im Großen betrachtet bestünde ein Plugin also aus folgenden Bereichen: Abbildung 41: Konzept eines Plugins Konfektionierung der Impulsantwort Eine wichtige Voraussetzung für die flexible Arbeit mit BRIRs ist die Möglichkeit, Direktschall, Reflexionen und Nachhall getrennt behandeln zu können. Daher sollten die Dateien aller gemessenen Datensätze jeweils bereits in dieser dreigeteilten Form vorliegen. Eine Rekombination der Bestandteile erfolgte dann durch das Plugin entsprechend der gewünschten Richtung und der übrigen Einstellungen. Dies ermöglichte in erster Linie die pegelmäßige Anpassung der Komponenten untereinander und erlaubte damit sowohl Einstellungen der Räumlichkeit unter klanglich-ästhetischen Gesichtspunkten als auch eine Veränderung der gewünschten Distanz. Außerdem ermöglichte diese Struktur, beliebige Kombinationen aus unterschiedlichen Messreihen vorzunehmen. Beispielsweise könnte das Reflexionsmuster der im Brahmssaal aus einer Distanz von 4 m gemessenen BRIRs mit dem Nachhall einer Kirche zusammengesetzt werden. 59 Da unsere Impulsantworten stets nur für die linke Hälfte eines jeden Raumes vorliegen, müsste abhängig von der gewählten Richtung eine Unterscheidung folgen: Läge die Auswahl in der linken Raumhälfte, so erfolgte zunächst keine weitere Veränderung. Läge sie dagegen in der rechten Raumhälfte, so würde eine Spiegelung der gegenüberliegenden Impulsantwort vorgenommen. Es erfolgten automatisch sowohl die Vertauschung des linken und rechten Kanals als auch das Resampling auf 99% für die notwendige Dekorrelation. Das durch das Resampling bewirkte minimal frühere Einsetzen des Impulses würde mit Hilfe eines Verzögerungsgliedes ∆t ausgeglichen. Im Falle, dass eine Quelle in den Bereich zwischen +/-30° fiele, könnte das Plugin diese automatisch durch eine Phantomschallquelle ersetzen. Dies geschähe dadurch, dass in diesem Fall eine Impulsantwort erzeugt würde, die sowohl den linken als auch den rechten Lautsprecher einer virtuellen Basis in sich vereinte. Dazu würden unter Beibehaltung der BRIR für die Basis der linke und der gespiegelte rechte Strang über eine pegelmäßige Gewichtung ∆L zusammengeführt. Diese Gewichtung gliche dabei einem Pegel-Panning, mit dem die Quelle innerhalb der vorderen oder hinteren Basis positioniert würde. In diesem Fall diente die in der Benutzeroberfläche ausgewählte Position der Quelle als Eingangs-Wert für das Pegel-Panning. Auch die bereits erläuterte zuschaltbare LFE-Funktion ließe sich vollständig in die Impulsantwort integrieren. Hierfür erfolgte zunächst die Hochpassfilterung der Impulsantwort bei einer Grenzfrequenz fx . Dies bewirkte, dass die eigentliche BRIR keine tieffrequenten Komponenten des Audiosignals mehr übertrüge. Um eine unangetastete Übertragung dieser tiefen Frequenzen zu erreichen, würde der Impulsantwort lediglich ein komplementär Tiefpass-gefilterter Dirac-Stoß phasenrichtig zugemischt. Eine pegelmäßige Gewichtung sowie die freie Wahl der Grenzfrequenz erlaubten eine differenzierte Ausbalancierung der tiefen Frequenzen. Das Flussdiagramm in Abbildung 42 veranschaulicht den gesamten Aufbau eines solchen Plugins sowie der Impulsantwort-Konfektionierung. Grafische Benutzeroberfläche (GUI) Die Benutzeroberfläche sollte in erster Linie zwei Dinge ermöglichen: – Eine einfache Auswahl der BRIR-Datensätze (verschiedene Messräume, verschiedene Distanzen, beliebige Kombinationsmöglichkeiten) – Die intuitive Einstellung der Richtung in der Horizontalebene – Denkbar wäre eine Kreisdarstellung, in der alle gemessenen Positionen angezeigt werden und durch Anklicken ausgewählt werden könnten. Im Falle, dass eine Interpolation zwischen den gemessenen Positionen realisiert würde, könnte auf eine Rasterung verzichtet werden. Darüber hinaus wäre eine intuitive Darstellung aller weiteren Parameter wünschenswert: – Je ein Pegelsteller für Direktsignal, frühe Reflexionen und Nachhall – Modus-Wahlschalter: Automatische Verwendung virtueller Phantomschallquellen – Ein Schalter für den „virtuellen LFE-Kanal“ – in diesem Fall: Wahl der Grenzfrequenz sowie Einstellmöglichkeit des Pegelverhältnisses zwischen Bass und Mittel-/Hochtonbereich. 60 Abbildung 42: Funktionsweise eines möglichen Plugins 61 5.5 Betrachtungen zum Hörbild / Ästhetische Betrachtungen Zu Beginn dieses Abschnittes sei angemerkt, dass unserer Erfahrung nach die Abhörlautstärke ein wesentlicher Faktor bei der Hervorrufung des angestrebten Hörbildes im Falle der binauralen Synthese ist. Die binaurale Simulation scheint der Realität dann am nächsten zu sein, wenn die virtuellen Lautsprecher in einer Lautstärke abstrahlen, die der wahrgenommenen Lautstärke der abzubildenden Schallquelle in der Realität entspricht. Je nach Material birgt dies für den Tonmeister natürlich die Gefahr, sich über einen zu langen Zeitraum einem erhöhten Pegel auszusetzen. 5.5.1 Auswirkungen auf die Wahrnehmung des Tonsatzes Die Beschäftigung mit Ortung und Räumlichkeit bei der Komposition von Musik ist alles andere als neu. Als plakative Beispiele für im Werk angelegte Quellpositionierungen seien etwa die Mehrchörigkeit in der Musik Corellis, die klassische Ausnutzung räumlicher Effekte zwischen den Violingruppen bei deutscher Orchesteraufstellung [vgl. Meyer 1999, S.213] oder entsprechende Partituranweisungen Wagners genannt. Die Räumlichkeit ist schon aus programmatischen Gründen (etwa der Unterscheidung zwischen weltlicher und geistlicher Musik) in der Musikgeschichte traditionell eng mit dem Duktus der Musik verwoben. Vor diesem Hintergrund wird deutlich, dass nur die räumlich exakte Reproduktion der Darbietung dem innewohnenden musikalischen Gehalt gerecht werden kann. Im Falle der binauralen Abbildung eines musizierenden Ensembles wird dieser Zugewinn besonders deutlich: Da hier in den meisten Fällen den einzelnen Schallquellen bestimmte Funktionen innerhalb des Tonsatzes zugewiesen sind (z.B. die Ausführung von Spannungs-, Leit- oder Grundtönen oder das Übernehmen von Melodie-, Mittel- oder Bassstimmen), wirkt sich die Instrumentierung ortsbestimmend auf den Tonsatz aus. Man kann im Falle einer Binauralisierung also von einer deutlichen Verbesserung der Durchsichtigkeit des Tonsatzes sprechen. Durch eine entsprechende Auswahl geeigneter BRIRs ist es zudem möglich, das in der jeweiligen Komposition angelegte Konzept von Schmelz- oder Spaltklang zu unterstützen. Ist die Rolle der Einzelquellen innerhalb des Tonsatzes klar definiert (wie etwa bei den meisten klassischen und romantischen Orchesterwerken), so ergibt sich aus der Positionierung in der binauralen Simulation zwingend auch eine Positionierung musikalischer Funktion. Dies sollte bei der binauralen Synthese unserer Ansicht nach immer bedacht werden. Sollen sich die Positionen einer oder mehrerer binauralisierter Quellen über der Zeit ändern, so sollte es der Anspruch des Tonmeisters sein, den Veränderungen der Musik über der Zeit (z.B. Kadenzen, Phrasen oder formale Abschnitte) gerecht zu werden und ihnen nicht entgegenzusteuern. Für die Verwendung bewegter Quellen ohne Rücksichtnahme auf solche grundlegenden Zusammenhänge gibt es im Bereich von 5.1 Surround eine ausreichende Menge an Beispielen, auf die hier aber nicht näher eingegangen werden soll. Bei der Beachtung dieser musikalischen Gegebenheiten ist es unserer Ansicht nach aber durchaus möglich, eine legitime räumliche Interpretation eines Werkes in Form einer binauralen Synthese zu erschaffen. 5.5.2 Umhüllung Bei raumbezogenen Wiedergabeverfahren wie z.B. 5.1 Surround hat sich der Begriff der „Umhüllung“ des Hörers als anzustrebende Eigenschaft einer Mischung etabliert. Es sei an dieser Stelle lediglich erwähnt, dass im Gegensatz dazu bei der binauralen Synthese aufgrund der Verwendung echter binauraler Raumimpulsantworten diese Umhüllung gewissermaßen von selbst erreicht wird. Das natürliche Reflexionsmuster des Raumes umgibt dabei den Hörer und integriert ihn im Idealfall vollständig in die binaurale Simulation. Es lässt sich also auch aus der Forderung nach guter Umhüllung ableiten, dass sowohl die Überlagerung unterschiedlicher Reflexionsmuster mehrerer Räume als auch die Abbildung eindimensionaler Räume (s. 2.4.1) vermieden werden sollte. 62 5.5.3 Position des Hörers Bisher befassten sich alle angeführten Überlegungen mit den unterschiedlichen Positionierungen der Einzelquellen. In der vorgestellten Messmethode wurden zwar für eine Vielzahl an Messpositionen BRIRs gewonnen, nicht jedoch für unterschiedliche Positionen des Kunstkopfes. Bei einer größer angelegten Implementierung sollte natürlich auch die Position des Hörers innerhalb des Raumes veränderbar sein, um das sich damit verändernde Reflexionsmuster widerzuspiegeln. Hierbei stellten sich in Bezug auf die Räumlichkeit ähnliche ästhetische Fragen wie bei der Positionierung eines Hauptmikrofons oder Kunstkopfes im echten Aufnahmeraum. Die Hörerposition kann aber auch in Relation zum klanglichen Geschehen betrachtet werden. Hier sind sicherlich verschiedene Modelle denkbar, die auch über die klassischen Hörgewohnheiten hinausgehen können (z.B. eine indirekte Platzierung des Hörers innerhalb des Ensembles oder am Ort eines bestimmten Instrumentes). Diese Entscheidung, die unmittelbaren Einfluss auf die emotionale Wirkung einer Mischung hat, sollte unbedingt bewusst vom Tonmeister getroffen werden. 5.5.4 In-Kopf-Lokalisation (IKL) als kreatives Element innerhalb einer Mischung Wenn in einer binauralisierten Mischung die Außer-Kopf-Lokalisation die Norm darstellt, so kann die zuvor lediglich in Kauf genommene In-Kopf-Lokalisation zu einer Ausnahme mit künstlerischem oder interpretatorischem Gehalt werden. Rücken die Schallquellen in Folge der Binauralisierung gewissermaßen vom Hörer in die Ferne, so wird die In-Kopf-Lokalisation entsprechend zu einer besonders nahen, intimen Möglichkeit der klanglichen Abbildung. In verschiedenen Mischversuchen erschienen uns solche nicht-binaural beigemischten Signale sogar in gewisser Weise verstörend, da sie in völligem Widerspruch mit der aufgebauten binauralen Simulation stehen. Es wäre interessant zu untersuchen, wie verschiedene Probanden eine solche plötzliche In-Kopf-Lokalisation emotional bewerten. Dabei wäre natürlich zu bedenken, dass denjenigen Personen, die ohnehin nur eine geringfügige AKL wahrnehmen können, die Wirkung einer IKL im Kontext sicherlich deutlich schwächer erschiene. Die Assoziation von In-Kopf-Lokalisation und lyrischem Ich, zumindest aber die Verbindung zu menschbezogenen Darstellungen, scheint in diesem Zusammenhang besonders nahe liegend. Dies birgt sicherlich Möglichkeiten für die Hörspielproduktion, z.B. zur Darstellung der inneren (dem Hörer gewissermaßen oktroyierte) Gedankenwelt im Gegensatz zur äußeren erlebten Welt. Aber auch bei Musik, die sich mit menschlichen Emotionen und Handlungen auseinandersetzt wie z.B. Lieder oder Opern, böte sich eine solche Verwendung an. Auch eine Aufteilung von Aktion und Reaktion auf die beiden Verfahren wäre denkbar. 5.5.5 Außer-Kopf-Lokalisation (AKL) als kreatives Element innerhalb einer Mischung Der Einsatz vereinzelter binauraler Elemente innerhalb einer eigentlich raumbezogenen Mischung stellt sicherlich den häufigsten Fall der Kombination aus IKL und AKL dar. Eine solche Verwendung von Kunstkopfsignalen, wie sie etwa in einigen Aufnahmen von Bands in den 70er und 80er Jahren vorgenommen wurde, ist aber natürlich noch keine binaurale Synthese im Sinne der vorgestellten Methode. Eine nachträgliche Binauralisierung einzelner Spuren stellt hier dagegen sicherlich eine einfachere Methode dar, binaurale Elemente in die Mischung zu integrieren. Bietet die IKL innerhalb einer kopfbezogenen Mischung eine besonders intime Abbildung, so ermöglicht die AKL innerhalb einer raumbezogenen Mischung eine eher entfernt wirkende Platzierung einzelner Quellen. Während solche Effekte für gewöhnlich nur für die Wiedergabe über Kopfhörer ausgelegt sind, wäre zu überlegen, diese mit Hilfe von (in die binauralen Elemente einberechnete) Crosstalk Cancellation für die Lautsprecherwiedergabe anzupassen. Da hierbei jedoch Informationen über die Aufstellung der Lautsprecher vorliegen müssen und sich die korrekte binaurale Abbildung auf einen einzelnen Sweet Spot beschränkt, ist hiervon im Falle einer Musikmischung für eine größere Hörerschaft vermutlich abzuraten. 63 5.5.6 Ort und Neue Musik Die vorgestellte Methode bietet auch Komponisten verschiedene Möglichkeiten, die Technik für ihre Werke nutzbar zu machen. Dabei ist zunächst einmal an solche Kompositionen zu denken, in denen das Element Raum in exponierter Weise kreativ eingebunden ist, d.h. der Ort als gleichwertiger musikalischer Parameter zu beispielsweise Melos oder Harmonie Anwendung findet. Eine solche Komposition könnte dementsprechend erst bei der technischen binauralen Wiedergabe ihren vollgültigen Gehalt als Kunstwerk entfalten. Natürlich ist es gerade im Bereich der elektronischen Musik ein häufig angewandtes Mittel, Lautsprecherpositionen exakt vorzugeben oder gar eine Verwendung von Wellenfeldsynthese vorzusehen. Eine präzise dreidimensionale und dabei einfach reproduzierbare Positionierung einzelner Schallquellen ist aber ausschließlich mit der Binauraltechnik möglich. Wird Ort als musikalischer Parameter anerkannt, kann er auch zum Objekt künstlerischer Interpretation werden. Denkbar wäre also z.B. eine Darbietung mit rein elektronischer Musik, bei der der Musiker über den Eingriff in die binaurale Synthese einem mit Kopfhörern ausgestatteten Publikum seine Interpretation des Werkes darlegte. (Sogar Popmusik könnte auf diese Weise vom Stigma, ausschließlich „Wiedergabemusik“ zu sein, befreit werden.) Bei Werken mit Musikern und Live-Elektronik wäre eine Wiedergabe mit Kopfhörern natürlich nicht geeignet, wenn sich Publikum und Musiker im selben Saal befänden. In diesem Fall ist die Wellenfeldsynthese sicherlich das geeignetste Wiedergabeverfahren, um dem Komponisten vergleichbare Freiheiten zu gewähren. Um Ort nicht nur als indirekten interpretatorischen Parameter zuzulassen, sondern ihn auch bei direkter musikalischer Aktion berücksichtigen zu können, wäre eine Einbindung in elektronische Musikinstrumente (beispielsweise über die Anschlagsposition innerhalb einer Taste bei einem Synthesizer) oder über entsprechende externe Controller bei traditionellen akustischen Instrumenten denkbar. Hierbei handelte es sich also gewissermaßen um „binaurale Instrumente“. Wie schon oben erwähnt, wäre es im Falle mikrofonierter akustischer Instrumente jedoch notwendig, das Publikum in einem getrennten Saal der Aufführung beiwohnen zu lassen, damit die Richtungen der entsprechend synthetisierten virtuellen Lautsprecher nicht in Konflikt mit der Richtung des Direktschalls geraten. Die binaurale Synthese könnte zudem als eine einfache Kontrollmöglichkeit für Komponisten implementiert werden, die an Werken für Wellenfeldsynthese arbeiten. In diesem Fall müssten die entsprechenden Steuerdaten in der DAW abgegriffen oder generiert und auf die einzelnen binaural simulierten Lautsprecher einer virtuellen Wellenfeldsynthese angewendet werden. Zu diesem Zweck könnten BRIRs echter Wellenfeldsysteme ermittelt werden, um die Interaktion zwischen Wiedergaberaum und Wiedergabesystem korrekt abbilden zu können. Dies zu untersuchen und zu implementieren wäre Aufgabe einer weiterführenden Arbeit. Eine weitere mögliche Anwendung wäre die Erstellung von virtuellen Klanginstallationen. Besonders in Verbindung mit Systemen zur Erstellung von audiovisuellen „Virtual Realities“ (vgl. Kapitel 1.3, Andere binaurale Systeme) könnten hier eindrucksvolle Werke geschaffen werden. 64 5.6 Beispielmischungen Im Folgenden möchten wir anhand einiger Beispielmischungen konkrete Möglichkeiten und Probleme der vorgestellten Methode erläutern. Alle hier besprochenen Beispiele sind auf der beigefügten Audio-CD enthalten. 5.6.1 R. Murray Schaffer: „Epitaph for Moonlight“ für Chor a capella Track 1 : Kunstkopfaufnahme Track 2 : Binaurale Nachmischung R. Murray Schaffers „Epitaph for Moonlight“ eignete sich aufgrund der in der Komposition geforderten kreisförmigen Aufstellung der 16 Sängerstimmen besonders für eine eindrucksvolle binaurale Wiedergabe. Die Aufnahme des Stückes fand im Konzerthaus der Hochschule für Musik Detmold statt – in demselben Raum, aus dem uns auch gemessene BRIRs vorlagen. Da bereits bei der Produktion ein Kunstkopf zur Verfügung stand, der in der Mitte des im Kreis aufgestellten Chores platziert wurde, und auch von allen 16 Chorstimmen die einzelnen Mikrofonsignale vorhanden waren, lag es nahe, eine binaurale Mischung zu erstellen, die im Hörvergleich der Kunstkopfaufnahme gegenübergestellt werden könnte. Abbildung 43 zeigt die Aufstellung im Detail. Für die Sängerstimmen kamen Mikrofone vom Typ Neumann KM 140 (Nierencharakteristik) zum Einsatz. Aus Sicht des Kunstkopfes befindet sich die erste Sopranstimme links hinten. Im Uhrzeigersinn folgen Sopran 2-4, Alt 1-4, Tenor 1-4 und Bass 1-4. Bei der binauralen Nachmischung wurde versucht, sich möglichst dem originalen Klangereignis, wie es durch die Kunstkopfaufnahme festgehalten worden war, anzunähern. Die Tatsache, dass bei der binauralen Nachmischung BRIRs aus demselben Raum, in dem auch die Aufnahme stattgefunden hatte, zur Verfügung standen, begünstigte dieses Vorhaben. Hierfür wurden also alle Mikrofonsignale mit einer dazugehörigen BRIR gefaltet – in ungefährer Übereinstimmung mit der Position der Sänger in der Kunstkopf-Aufnahme. Im Detail sollte bei der Nachmischung jedoch gezielt Unzulänglichkeiten, wie sie bei Kunstkopf-Aufnahmen auftreten, entgegengewirkt werden. So wurde beispielsweise versucht, das erwähnte Phänomen der Spreizung („das Loch in der Mitte“) aktiv auszugleichen, indem die Sänger im vorderen bzw. hinteren Bereich tendenziell dichter beieinander positioniert und mit vergleichsweise höherem Pegel zugemischt wurden. Die roten Zahlen in der Abbildung stehen für die Richtung der jeweils verwendeten BRIR. Es ist beispielsweise zu sehen, dass alle Altstimmen in der binauralen Nachmischung in dem Bereich von +/30° als Phantomschallquellen abgebildet wurden. Ebenso wurden im hinteren Bereich die Tenorstimmen „gestaucht“ positioniert. Darüber hinaus kamen Filter zur Hervorhebung der Blauertschen Bänder zum Einsatz. An der Struktur der Impulsantworten in Bezug auf die frühen Reflexionen und den Nachhall wurde keine Veränderung vorgenommen. Jede BRIR ging mit voller Länge in die Faltung ein. Es sollte damit insgesamt also ein klanglich schlüssiges Ergebnis geschaffen werden, das sich in seinem äußerlichen Erscheinungsbild an der Kunstkopfaufnahme orientierte, im Speziellen jedoch versuchte, sich die Vorzüge der binauralen Mischungstechnik vorteilhaft zu eigen zu machen. 5.6.2 Stereo Inn: „St. John’s“ Track 3 : Stereomischung Track 4 : Binaurale Mischung Die Ballade „St. John’s“ der Kölner Band „Stereo Inn“ wurde 2005 in den Studios des Erich-ThienhausInstitutes aufgenommen. Der Song (mit einer Akustikgitarre, einem Shaker und zwei Sängern besetzt) 65 wurde mit Ausnahme einiger Gitarren-Overdubs live aufgenommen. Die Gitarre wurde hierbei sowohl akustisch mit einem ORTF aus zwei Neumann KM140 (Niere) als auch mit einem piezoelektrischen Tonabnehmer aufgenommen; der Gesang mit einem Neumann U87. Ziel beider Mischungen war es, für das jeweilige Wiedergabesystem ein vollgültiges, ästhetisch befriedigendes Ergebnis zu erhalten. Daher wurde auf eine Pegelabstimmung verzichtet, und lediglich die Klangfarbe und Lautheit beider Mischungen aufeinander angepasst. In ersterem Fall handelt es sich um eine völlig konventionelle raumbezogene Mischung, mit den üblichen Eingriffen in Dynamik, Frequenzgang und Räumlichkeit. Im Fall der binauralen Mischung wurde dagegen – insbesondere vor dem Hintergrund des Hörvergleichs – versucht, die Eigenheiten der binauralen Synthese besonders hervorzuheben. Daher wurden vielfach (von der musikalischen Entwicklung abhängige) bewegte Quellen eingesetzt, die durch Pegelautomation und Aufschaltung auf unterschiedliche Busse erzeugt werden konnten (vgl. Kapitel 5.3). Dies betraf besonders die zweite Gesangsstimme, die sich im Verlauf des Songs hinter dem Kopf des Hörers bewegen sollte sowie den Shaker, der abhängig vom jeweiligen musikalischen Formteil völlig frei positioniert wurde. Die erste Gesangsstimme wurde zum Teil nicht auralisiert, so dass sich Abschnitte mit In-Kopf-Lokalisation ergaben. Für die binaurale Mischung wurden Raumimpulsantworten aus dem Brahmssaal der HfM Detmold verwendet. Beide Mischungen, binaural und raumbezogen, wurden nachträglich verhallt. Als problematisch stellte sich im Verlauf der binauralen Mischung vor allem die Räumlichkeit dar. Besonders im Fall der Gesangsstimmen musste der Anteil der frühen Reflexionen innerhalb der verwendeten BRIRs verringert werden, um den Raum ein wenig an den Musikstil anpassen zu können. Insgesamt wäre es aber wünschenswert gewesen, zu diesem Zweck eine größere Auswahl an Räumen und damit binauralen Reflexionsmustern zur Verfügung gehabt zu haben. Es ist zu hoffen, dass in naher Zukunft eine solche Datenbank zur Verfügung stehen wird. 5.6.3 „Robbi, Tobbi und das heliozentrische Weltbild“ Track 5 : Binaurale Mischung Hierbei handelt es sich um ein Stück von Christopher Tarnow, das ursprünglich als Bravourstück für zwei Klaviere gedacht war. Aufgrund der zahlreichen sich verschiebenden Patterns eignete es sich besonders für eine künstlerische Binauralisierung. Die Idee war hierbei, die besagten musikalischen Muster in räumliche Muster zu verwandeln. Aus diesem Grund sollte jeder einzelnen Tonhöhe eine bestimmte binaurale Richtung zugewiesen werden (s. Anhang 4: Abbildung der ersten Partiturseite). Zuvor musste jedoch über eine günstige Neuinstrumentierung nachgedacht werden, die eine entsprechende Positionierung erst ermöglichen würde. Die Entscheidung fiel dabei auf eine Umsetzung unter Zuhilfenahme der FM-Synthese. Da an vielen Stellen innerhalb des Werkes ein Zusammentreffen zweier klanglich gleichwertiger Instrumente vorausgesetzt wird, musste die Umsetzung gewissermaßen mit zwei sich gleichenden „Instrumenten“ erfolgen, die aber dennoch so verschiedenartig sein sollten, dass eine Unterscheidung der beiden Stimmen auch ohne räumliche Zuordnung der beiden Instrumente möglich wäre. Daher wurde zweimal der selbe FMAlgorithmus eines Yamaha DX7-II verwendet, bei der zweiten Stimme jedoch eine Modulatorenfrequenz auf das Fünffache erhöht. Auf diese Weise entstanden zwei sehr ähnliche Instrumente, die sich aber durch das ausgeprägtere Obertonspektrum des zweiten unterschieden. Anschließend wurde das Musikstück in MIDI-Daten umgewandelt. In einem Sequencer wurde für jede Tonhöhe und Stimme eine eigene MIDI-Datei generiert. Auf diese Weise entstanden 156 Dateien (83 Tonhöhen für die erste und 73 Tonhöhen für die zweite Stimme). Diese Dateien wurden anschließend für jede Stimme hintereinander gesetzt und diese in ihrer Gesamtheit über den Synthesizer abgespielt. Der Audioausgang des DX7-II wurde dabei aufgenommen. 66 Nach der anschließenden erneuten Auftrennung der Audiodaten nach Tonhöhe konnten in einer DAW die Faltungen vorgenommen werden. Die verwendeten BRIRs waren dabei die in Abschnitt II erwähnten Impulsantworten aus dem Brahmssaal der HfM Detmold. Die Tonhöhen der ersten Stimme wurden dabei – beginnend bei -180° – in 10°-Schritten im Uhrzeigersinn auf der Horizontalebene angeordnet, die der zweiten Stimme – beginnend bei 0° – in 10°-Schritten gegen den Uhrzeigersinn. Vor der Faltung wurden die Signale aus geschmacklichen Gründen leicht verzerrt. Am Anfang und am Ende der Komposition wurde eine IKL der Signale vorgesehen, so dass das Werk gewissermaßen hiervon eingerahmt wird. Zu Beginn handelt es sich um das Rauschen eines Radios (aufgenommen mit einem alten Telefunken-Radio) sowie einem Cluster, gegen Ende zusätzlich um rückwärts abgespieltes Flüstern. Letzteres wurde aufgrund der in der Komposition angelegten Verdichtung des Tonsatzes und seiner verstörenden Wirkung in Verbindung mit IKL verwendet. Die Einzelquellen wurden anschließend ohne einen weiteren Eingriff summiert. Abbildung 43: Aufstellung bei der Choraufnahme 67 Danksagung Zuallererst möchten wir allen Teilnehmern der Hörversuche danken, ohne die diese Arbeit nicht möglich gewesen wäre. Des weiteren möchten wir danken: Herrn Prof. Dr. Dipl.-Ing. Malte Kob und Herrn Prof. Dipl.-Tonmeister Michael Sandner für die Betreuung der Arbeit. Martin Schneider und der Georg Neumann GmbH, Berlin, für die Bereitstellung des Kunstkopfes und die zahlreichen hilfreichen Hinweise. Der Genuin Recording Group, Leipzig, für die umfangreiche Unterstützung und die Bereitstellung der Studios. Christian Budde für die Erstellung des VST-Plugins. Marc Schettke für die gekonnte Überarbeitung des Onlinetests. Emma Lain, Moritz Reinisch und Johannes Wallbrecher für die Bereitstellung der Hörbeispiele und die kompetente Beratung. Max Holtmann für die Erstellung der Scans. Ein besonderer Dank geht schließlich an Ulrike Tarnow und Gudrun Keinath für die geduldige Unterstützung und das Korrekturlesen der Arbeit. Christopher dankt Daniel. Daniel dankt Christopher. 68 Literatur [1] Blauert, J.: Räumliches Hören. S. Hirzel Verlag, Stuttgart, 1974. [2] Bücklein, R.: Hörbarkeit von Unregelmäßigkeiten in Frequenzgängen bei akustischer Übertragung. Dissertation, TH München, 1964. [3] Freedman, S. J. und Fisher, H. G.: Localization of Sound During Simulated Unilateral Conductive Hearing Loss. Acta Otolaryngologica 66: 213220, 1968. [4] Görne, T.: Tontechnik, 2. überarbeitete Auflage. Carl Hanser Verlag, München, 2008. [5] Griesinger, D.: Equalization and Spatial Equalization of Dummy Head Recordings for Loudspeaker Reproduction. AES Paper 2704, Los Angeles, 1988. [6] Hammershøi, D. und Møller, H.: Binaural Technique - Basic Methods for Recording, Synthesis and Reproduction. In: Blauert, J.: Communication acoustics. Springer, Berlin / Heidelberg / New York, 2005. [7] Karamustafaoglu, A.: Binaural Room Scanning, a new technology: BRS Processor. In: Swiss Sound (Studer) Nr. 43, April 2000. [8] Kulkarni, A. und Colburn, H. S.: Efficient Finite-Impulse Response Filter Models of Head-Related Transfer Functions. In: J. Acoust. Soc. Am. 97, 3278, 1995. [9] Kulkarni, A. und Colburn, H. S.: Role of Spectral Detail in Sound-Source Localization. In: Nature, 396, 747, 1998. [10] Lee, S.-I, Kim, L.-H., Sung, K.-M.: Head Related Transfer Function Refinement Using Directional Weighting Function. AES Paper 5918, New York 2003. [11] Lentz, T., Schröder, D., Vorländer, M., Assenmacher, I.: Virtual Reality System with Integrated Sound Field Simulation and Reproduction. In: EURASIP Journal on Applied Signal Processing, Sonderausgabe: Spatial Sound and Virtual Acoustics. [12] Mackensen, P., Felderhoff, U., Theile, G., Horbach, U., Pellegrini, R.: Binaural Room Scanning - A new Tool for Acoustic and Psychacoustic Research. In: Fortschritte der Akustik, DAGA ´99. DEGA, Oldenburg, 1999. [13] Menzel, D., Wittek, H., Theile, G., Fastl, H.: The Binaural Sky: A Virtual Headphone for Binaural Room Synthesis. In: 1st Int. Tonmeister Symposium, Hohenkammer, 2005. [14] Meyer, J.: Akustik und musikalische Aufführungspraxis, 4. überarbeitete Auflage. Verlag Erwin Bochinsky, Frankfurt am Main, 1999. [15] Minnaar, P., Olesen, S. K., Christensen, F., Møller, H.: Localization with Binaural Recordings from Artificial and Human Heads. J. Audio Eng. Soc., Vol. 49, 2001. [16] Møller, H.: Fundamentals of binaural technology. Appl. Acoustics, Vol. 36, 1992. [17] Møller, H., Sørensen, M. F., Hammershøi, D., Jensen, C. B.: Head-Related Transfer Functions of Human Subjects. J. Audio Eng. Soc., Vol. 43, 1995. [18] Plenge G., Krüger, R., Wilkens, H.: Über die Reproduktion von Hörbildern mit Hilfe eines künstlichen Kopfes. Beitrag zur 8. Tonmeistertagung 1969, in: Berichte der Tonmeistertagung Nr. 8 (1969) bis Nr. 24 (2006). Bildungwerk des Verbandes Deutscher Tonmeister (VDT), Verlag K. G. Saur, München, 2006. 69 [19] Potratz, U.: Untersuchung der Gestaltungsmöglichkeiten früher Reflexionen mit Hilfe eines raumakustischen Modells. Diplomarbeit am Erich-Thienhaus-Institut an der Hochschule für Musik Detmold. Detmold, 2005. [20] Ratay, A.: Vergleichende Untersuchungen zur Aufnahme verteilter Schallquellen mit Kunstkopftechnik und binaural gemischter Polymikrophonie. Diplomarbeit am Institut für technische Akustik an der Rheinisch Westfälischen Technischen Hochschule Aachen. Aachen, 2004. [21] Lord Rayleigh: On our perception of sound direction. In: Phil. Mag. 13, 6th series, 1907. [22] Rumsey, F.: Spatial Audio. Focal Press, Oxford, 2001. [23] Rychtarikova, M., van den Bogart, T., Vermeir, G., Wouters, J.: Binaural Sound Source Localization in Real and Virtual Rooms. J. Audio Eng. Soc., Vol. 57, 2009. [24] Schirmer, W., Haustein, B. G.: Messeinrichtung zur Untersuchung des Richtungslokalisationsvermögens. In: Hochfrequenztechnik und Elektroakustik, Nr. 79, 1970. [25] Sengpiel, E.: Die Bedeutung der Blauertschen Bänder für die Tonaufnahme. http://www.sengpielaudio.com/DieBedeutungDerBlauertschenBaender.pdf (20.10.2009) [26] Shaw, E.A.G.: External Ear Response and Sound Localization. In: W. Gatehouse: Localization of Sound: Theory and Applications. Amphora Press, Groton, 1982. [27] Theile, G.: Die Bedeutung der Diffusfeldentzerrung für die stereofone Aufnahme und Wiedergabe. In: Tagungsbericht der 13. Tonmeistertagung, München, 1984. [28] Thurlow, W. R., Runge, P. S.: Effects of Induced Head Movements during Sound Localization. In: J. Acoust. Soc. Am. 42, 1347, 1967. [29] Toole, F. E., McSayers, B. A.: Lateralization Judgements and the Nature of Binaural Acoustic Images. In: J. Acoust. Soc. Am. 37, 319, 1965. [30] Torres, R. R., Petragli, M. R., Tenenbaum R. A.: An Efficient Wavelet-Based HRTF Model for Auralization. In: Acta Acustica 90, 108, 2004. [31] Vorländer, M.: Auralization. Springer Verlag, Berlin / Heidelberg / New York, 2008. 70 Anhang Anh. 1: Kommentare aus Abschnitt 4 des Hörvergleichs: Unterschiede zwischen beiden Mischungen der Choraufnahme, sortiert nach Präferenz des Probanden Binauralsynthese wird bevorzugt „Viel mehr Hall auf [KU]“ „Bei [Binaural]: Lokalisierbarkeit, Räumlichkeit und Ortbarkeit besser“ „[Binaural]: klingt natürlicher, räumlicher und ist rundum ortbar, während ich [KU] eher hinten orte“ „[KU]: sehr rechtslastig (männerlastig) Frauen in [Binaural] besser zu hören \ laut Frauen von links, Geräuscheffekte: Frauen hinten ->bei [Binaural] // Männer immer“ „[KU]: Räumlichkeit it hauptsächlich so: (Skizze: extrem l/r) [Binaural] hat natürlichere Räumlichkeit“ „Bessere Ortung bei [Binaural]“ „[Binaural]: Einzelne Stimmen sind im Gegensatz zu [KU] im Raum besser lokalisierbar. Stimmen klingen klarer“ „[Binaural]: Durchsichtigkeit (++), Klangdichte bei [KU]: (+)“ „In [KU] sind die Solostimmen breiter, nicht mehr so genau zu orten“ „Mischung [Binaural] erscheint viel plastischer, räumlicher, die Stimmen erscheinen bei Mischung [KU] eher planar. Beide Mischungen höre ich größtenteils links und rechts vom Kopfhörer“ „ich höre kaum einen Unterschied; die Hauptquellen (Frauen- und Männerstimmen) scheinen bei [KU] etwas näher zusammen zu liegen“ „Beispiel [Binaural] erscheint neutraler + dynamischer. Der Unterschied ist gering.“ „Mischung [Binaural] ist für mich etwas differenzierter.“ „Bei Mischung [Binaural] ist das Umhüllungsgefühl größer.“ „Mischung [KU] ist eher flach, die Stimmen sind nicht greifbar“ „[Binaural] ist ein wenig direkter als [KU]“ „Mischung [Binaural] deutlich stabilere und angenehmere Ortung, kompakterer EnsembleKlang“ „Bei [Binaural] ist die genaue Lokalisation der Stimmen einfacher.“ „Mischung [Binaural] erzeugt einen stärkeren Räumlichen Einbezug des Hörers. Das Gefühl in einem Kreis von Sängern zu stehen ist in [Binaural] stärker, die Lokalisation der Phantomschallquellen ist schärfer als in [KU]. Aber auch die Lokalisation von ganz links und ganz rechts ist in [Binaural] schärfer. An manchen Stellen bei [Binaural] lief mir fast ein Schauer über den Rücken, weil die Lokalisation der Sänger so realistisch war.“ „Die [Binaural] Aufnahme ist räumlicher und sphärischer. Die [KU] Aufnahme hingegen zu trocken. Die [KU] etwas besser lokalisierbar, aber bei zu geringer Basis.“ „Mischung [Binaural]: Gute Räumlichkeit, leicht unnatürlicher Klang. Mischung [KU]: Natürlicher Klang, Lokalisierung nur auf der Ohr-Verbindungsachse“ „Mischung [Binaural] klingt klarer.“ „[Binaural]: krasser räumlicher Eindruck! es passiert viel hinter dem kopf. die sänger sind wie in grüppchen auf einer scheibe angeordnet, die durch meinen kopf geht. [KU]: atmo vorhanden (durch nachhall) aber alles wirkt sehr flach, alle sänger stehen auf einem haufen.“ „[Binaural] ist schärfer, dichter und ein bisschen klarer, weniger diffus“ „[KU] klingt "dünner", weiter hinten, etwas verfärbt. [Binaural] klingt voller, lauter (?), näher. Beide Mischungen hinter dem Kopf“ „Klangfarbe: [KU] ist dumpf“ 71 Kunstkopfaufnahme wird bevorzugt „[KU] ist klarer, weniger Rauschen“ „[Binaural]: nur von l und r, schlechte Verbindung in der Mitte, von vorne nichts, bisschen von hinten. [KU]: bessere Umhüllung, feinere Lokalisation, offener Klang“ „[KU] klingt klarer“ „[Binaural]: mehr Hall, wirkt imposanter, aber unnatürlicher“ „[KU] natürlicher, direkter, Raumklang kommt besser zur Geltung“ „[KU] ist durch eine geringere Räumlichkeit klarer in der Lokalisation“ „[KU]: differenzierter, die einzelnen Stimmen sind eher lokalisierbar, [Binaural]: wirkt, als ob sich die Sänger bewegen.“ „[Binaural]: sehr starke Auffächerung l/r. Eindruck, als ob man sich darin befindet. [KU]: mehr aus einer Publikumsperspektive, weniger extrem.“ „Bei [KU] erscheint der Raum größer, gleichzeitig habe ich jedoch das Gefühl, näher am Chor zu sein, und ihn direkter zu hören. [Binaural] erscheint mir weiter entfernt“ „[KU] ist besser ausgeglichen? Wirkt mehr im Gleichgewicht. Bei [Binaural] sind Höhen/ Tiefen manchmal härter/stärker?. Der Rundum-Effekr ist bei [KU] auch besser“ „[KU]: wesentlich profunder, nicht so hohl und flach wie [Binaural]. In [KU] mehr Tiefe, nicht so direkter Klang wie in [Binaural]“ „Der größte Unterschied ist m.M.n. der Grad der Artefaktbildung bzw. zusätzlicher Geräuschhaftigkeit in Mischung [Binaural]. Zusätzlich entstand der Eindruck einer organischeren Umhüllung bei Mischung [KU]“ „[KU] etwas klarer, [Binaural] tendenziell aufdringlich Unterschiede kaum merklich; Einfluss des Kopfhörerklangs (inEar Sound Isolation)?“ „[KU] ist räumlicher“ „Bei Mischung [KU] ist alles deutlicher, [Binaural] eher verschwommen.“ „Lokalisationseindruck der Quellen“ „[KU] finde ich angenehmer zu hören, eine LS Wiedergabe wird schon ein bisschen imitiert“ „Mehr Trockenanteil in [Binaural]“ „[Binaural] ist verwaschener und weniger präsent/direkt im Vergleich zu [KU]. [KU] trennt die Stimmen besser nach rechts und links.“ „Aufnahme [KU] wirkt in der Räumlichkeit variabler. Aufnahme [Binaural] erzeugt mehr druck auf den Ohren. Aufnahme [KU] scheint die Ohren zu umhüllen. Aber mehr in Form einer Kugel um jedes Ohr einzeln.“ „In [KU] verschmelzen Sänger und Raum besser, der Frequenzgang ist ausgeglichener, hat mehr Bass und mehr Raum“ „Obertöne: wenig bei binaural, mehr bei [KU]“ Keine Präferenz (Choraufnahme) „[Binaural] scheint etwas mehr Tiefenstaffelung zu haben.“ „die Breite der Stereoabbildung, ein Gefühl den Nachall mehr zu mischen“ „Ganz gut“ „kein Unterschied“ „Klangfarbe“ „kein spürbarer Unterschied“ „kein Unterschied hörbar“ 72 Anh. 2: Kommentare aus Abschnitt 4 des Hörvergleichs: Unterschiede zwischen beiden Mischungen der Popmusikaufnahme, sortiert nach Präferenz des Probanden Binauralsynthese wird bevorzugt „[Stereo] auf Dauer zu direkt, aufdringlich; der Sänger sitzt bei mir im Kopf. Bei [Binaural]: man hat das Gefühl, mit im Raum zu sein (angenehm) [Binaural] ist offener, durchsichtiger, Gitarre klingt besser, Sänger ist besser eingebettet. [Stereo] Sitzt mir zu sehr auf der Nase“ „[Binaural]: Instrumente klingen alle sehr deutlich, etwas sehr scharf getrennt, "zu natürlich", der Shaker wandert von rechts nach links; [Stereo]: Gesang zu laut, aber besser mit 2. Stimme abgemischt, Shaker zu dumpf“ „[Binaural]: 2 Stimmen gut hörbar, wandert von rechts nach links? [Stereo]: Stimme weiter vorn, Background (2.Stimme) nicht so gut hörbar, Stimme und Instrumente aus gleicher Richtung.“ „Obwohl [Binaural] eher hinten zu hören ist ([Stereo] eher im Kopf) -> angenehmer im Gesamtzusammenklang“ „Der Gesang in [Stereo] ist mir zu „nah„. Ich nehme in beiden Mischungen die Gitarre und die Shaker neben mir wahr. Ist ungewohnt, aber reizvoll. (einmal links / einmal rechts)“ „[Binaural]: klarer durchhörbar als [Stereo]; Wieder der Eindruck einer Platzierung im Raum, Runderer Klang als [Stereo]“ „Gesang deutlicher bei [Binaural]. 2-Stimmigkeit bei [Stereo] fast verloren“ „Beide Aufnahmen spielen sich bei mir ohne deutliche vorne-hinten-Ortung ab. [Binaural] ist weiter gespreizt (Shaker extrem links) und transparenter“ „Mischung [Binaural] ist von den Quellen her etwas entfernter vom Hörer. Mischung [Stereo] ist genau anders herum näher, das ist zwar etwas unangenehm, dafür ist die Klangfarbe der Sängerstimme besser als bei [Binaural].“ „die Auffächerung zwischen Hauptstimme und Nebenstimme in [Binaural], gepaart mit einer insgesamt größeren und angenehmeren Räumlichkeit, erscheint mir gelungener als [Stereo], das im Vergleich räumlich relativ flach und auch im Frequenzgang beschnitten erscheint“ „Erster klingt sehr gut, der [Stereo] flacher und weiter weg“ „[Binaural]: Interessante „Stereo-Breite„, wirkt wie 70° (leeres Viertel im Rücken), LeadVocs klingen „im Kopf„. [Stereo]: weniger breites Klangbild, Klang befindet sich vor allem in der senkrechten Eben durch beide Ohren“ „Mischung [Binaural] vermittelt einen besseren Räumlichkeitseindruck“ „Mischung [Binaural] klingt mehr wie bei einem echten Konzert, es hallt stärker, jedoch nicht unangenehm.“ Raumbezogene Mischung wird bevorzugt „[Binaural]: künstlich wirkende Räumlichkeit, Sprünge in der Lokalisation. Elemente der Mischung fallen auseinander. Entspricht nicht der Hörgewohnheit, verfärbt. [Stereo]: Klarere Ortung im Kopf (vermutlich). Weniger verfärbt, bessere Mischung der Einzelelemente des Arrangements“ „[Binaural]: leicht verfärbt, räumlich, Stimme nicht scharf zu lokalisieren, Gitarre und Shaker sind super. [Stereo]: flach, Stimme gut ortbar, mir bekanntes Klangbild, vermutlich normales [Stereo], nicht verfärbt.“ „[Stereo] klingt wärmer“ „[Stereo]: positiv: ausgewogenerer Frequenzgang als [Binaural]. Negativ: etwas eng, flach. "British" sound. [Binaural]: positiv: Quellen besser trennbar, lockerer im Raum. Negativ: Raum selber schwammig, verfärbt. Mischung verfärbt, kaum Bass, zu räumlich, Phasenprobleme hörbar.“ 73 „[Binaural] klingt unnatürlich, besonders die Stimme. [Stereo]: so wie gewohnt.“ „[Binaural]: deutlich verfärbt, sehr "live", wandernde Quellen (v.a. Stimme) ungewohnt, aber gut durchhörbar. [Stereo]: Höhere Intensität/Klangdichte“ „[Binaural] ist etwas bandbegrenzt, allerdings lassen sich die beiden Stimmen besser voneinander trennen“ „Hauptunterschiede in den Vokalstimmen. In [Binaural] eher überpräsent, in [Stereo] näher und echter, dafür fast etwas dumpf. Außerdem ist die Zweitstimme in [Stereo] kaum hörbar.“ „Mischung [Binaural] Stimme verfärbt, dadurch, dass sie von hinten erklingt. In Mischung [Stereo] Stimme direkt von Mitte des Kopfes abgebildet.“ „Mischung [Stereo] gefällt mir besser als [Binaural]. Bei [Binaural] klingt der Sänger verfärbt und ungreifbar, scheint von hinten zu kommen.“ „Nr. [Binaural] ist breiter ; Klangfarbe: Nr. [Stereo] ist etwas dumpf, aber Nr. [Binaural]: Sänger verfärbt“ „[Binaural] klingt zu Beginn unatürlich nasal in Stimme und Gitarre. [Stereo] klingt natürlicher oder auch nur gewohnter. Zum Ende von [Binaural] ist ein Effekt von näherkommenden Musiker zu hören, es klingt so besser.“ „Stimmen bei Mischung [Binaural] werden nicht im Kopf lokalisiert. Das ist zwar eigentlich wünschenswert klingt aber ungewohnt und irgendwie unangenehm (zu räumlich). Der Klang der Stimme ist bei [Stereo] viel schöner“ „Zu [Stereo]: Leichte Übergewichtung im rechten Kanal durch die Akustikgitarre. Sehr sehr natürliche Abbildung der Instrumente und Stimme. Das Klangbild wirkt natürlich und sehr offen. Zu [Binaural]: Sehr starke Verfärbung der Stimme. Verfärbung der anderen Instrumente wesentlich schwächer, aber merklich weniger neutral als in [Stereo]. Scheinbares Wandern der Phantomschallquellen. Die [Binaural] Stimme im Gesang ist stärker richtungsmäßig und spektral von der Hauptstimme getrennt. Die Gitarre ist weniger durchsetzungsfähig. Shaker erscheint zu präsent.“ „Bei Mischung [Binaural] scheint die Stimme verfärbt zu sein, bei [Stereo] klingt die Stimme natürlich und die Gitarre schärfer, dafür klingen die Shaker nicht so "voll" wie bei [Binaural]. Der Sänger sitzt mir bei beiden Mischungen im Kopf, das ist ein bisschen aufdringlich“ „Mischung [Binaural]: klingt stark verfärbt, insbesondere die Stimmen und der Hall, der Raum wirkt bei Anregung mit Percussioninstrumenten „flatterig„ Mischung [Stereo]: natürliche Wiedergabe der akustischen Quellen / Stimmen. Engere Abbildungsbreite, deutlichere Ortbarkeit der Quellen“ „Mischung [Binaural]: Sänger total im Kopf, verfärbt!“ „[Binaural] ist komisch verfärbt, der Raum klingt auch komisch und nicht passend“ „Mischung [Binaural]: stark verfärbt, Stimme räumlich und von hinten Mischung [Stereo]: Shaker sehr weit rechts und links, Stimme gut in der Mitte und präsent“ „[Stereo]: 2.Stimme zu wenig Pegel“ „[Binaural]: zu viel Hall, Git/Sänger zu weit auseinander; [Stereo]: Git eher zu laut (rechts), 2.Stimme eher zu leise. Besser vom Hall, räumlicher Abstand besser.“ „[Binaural]: Main Voc komisch links (-) Gitarren so stark li und re getrennt, super gute Vorstellung im Raum (+) Klang ok; [Stereo]: Sänger eher im Kopf (-) schönere Klangfarbe (+), ansprechender Sound“ „[Binaural]: klingt sehr hohl, die Stimme schwankt hin- und her“ „[Binaural] wirkt höhenlastiger, in [Stereo] kommt das Chicken Egg nicht so gut durch, trotzdem angenehmer für die Ohren“ „Eigentlich kann man beide Mischungen nicht miteinander vergleichen. [Binaural]: experimentell (Gesang wandert hinten L,R,C /am Ende vorne): interessant. Musikalisch klingt die Mischung etwas (unausgewogen) und verfärbt, Aber die Lokalisierung hinten ist gelungen“ „[Binaural]: zu breit (!) Stimme zu unscharf, zu räumlich. [Stereo]: Stimme 2 deutlich und klar. Instr. Könnten differenzierter sein.“ 74 „[Stereo]:Gesamtklang von vorn angenehm. [Binaural]: Differenzierter - gut, aber, als wäre man mittendrin/etwas zu viel“ „[Stereo]: Leadgesang deutlich im Vordergrund -> aber in guter Balance mit Gitarre (+) Stimme könnte etwas intimer klingen, mehr Zischlaute. Background zu leise. [Binaural]: Verhältnis Lead/Background ausgeglichen (+) Leadgesang zu indirekt, vllt. Zu hallig, zu metallisch“ „[Binaural]: Mehr Hall? Klang weiter weg im Gegensatz zu [Stereo]. [Stereo] hat mir besser gefallen“ „[Stereo] besser: wichtigste Parameter (Gesang, Gitarre) im Vordergrund. [Binaural]: Gitarre zu sehr an der Seite, dafür 2. Gesangsstimme überhaupt hörbar. (Skizze: li hinten)“ „[Binaural]: Stimme wandert (Pan), [Stereo]: Gitarre (Diskant) scheint auch ein bisschen über die Mitte nach links zu wandern, Stimme scheint gegen Ende irgendwie näher als am Anfang. Mischung [Stereo] empfinde ich, obwohl sie nicht so breit ist ausgewogener, da die Instrumente näher zusammen sind, mit der Gitarre scharf links und dem Shaker rechts in Mischung [Binaural] ist fällt der Mix ziemlich auseinander.“ „Beispiel [Binaural] höre ich mit zwischen R/L "zerrissenem" Gitarrensound, ohne Lokalisierungsmöglichkeit.“ „auch hier eine angenehmere Wiedergabe (von hinten); dieser unangenehme Lupeneffekt ist weg, trotzdem eigentlich bei [Binaural] durchsichtiger“ „[Binaural] - Breite Mischung, aber mit einer sehr schlechten Lokalisation. Sänger wandert um Stereobasis abhängig von andere Stimmen. Sehr labil Stereobasis, die verändert sich. Unklare Lokalisation den Instrumenten. [Stereo] - Kompakte, ein bisschen enge stereo Abbildung, ohne negativen Phasenschwierigkeiten. Mischung mit der guten Lokalisation des Sängers und den Instrumenten.“ „Mischung [Binaural] ist undifferenziert, sehr in die Ferne gerückt, leicht nasal. Mischung [Stereo] hat hingegen den Gitarre-im-Kopf-Faktor, typischer für diese Musik.“ „[Binaural]: Weitere Auffächerung des Raums, dünnerer Klang, etwas gepresste Stimme. [Stereo]: Vollerer Klang, aufdringlicher“ „[Binaural] ist halliger als [Stereo]“ „Bei [Binaural] ist mir der Raum zu hallig.“ „Die [Stereo] Aufnahme ist mumpfig, sie klingt nicht frei. Die [Binaural] Aufnahme klingt wie ein schlechter Live-Mitschnitt direkt vor den PA-Boxen. Die [Stereo] ist tendentiell auf dem richtigen Weg. Der Gesang müßte offener klingen, er ist leider leicht verfärbt. Die Gitarren dürften auch etwas spritziger sein.“ „Räumlichkeit! Aufnahme [Binaural] hat eine Räumlichkeit die nicht zum Stil passt. (Untere Mitten-lastig. zu großer raum. zu viel raum) Bei Aufnahme [Stereo] nervt nur der Shaker halb links.“ „Mischung [Stereo]: Schöner, natürlicher Klang, wenig Räumlichkeit Mischung [Binaural]: Sehr unnatürlicher Klang, bessere Räumlichkeit“ „das autotune klingt schrecklich!!! (sorry, bin da purist) [Stereo]: klingt sehr natürlich räumlich. cooles feeling, gitarre und shaker von hinten zu haben. [Binaural]: seltsamer eindruck, keine einheitliche atmo, gitarre und shaker hören sich an, als wären sie in einem kasten im nächsten raum, gesang ist in einem übertriebenen raum...“ Keine Präferenz (Popmusik) „[Stereo] klingt weicher. Aber beide ganz gut“ „[Binaural]: gute räumliche Trennung zw. Backing Vocals und Lead Vocals. Kaum In-KopfLokalisation. Gesang leicht verfärbt“ 75 Anh. 3a: Testbogen des vor Ort durchgeführten Hörvergleichs 76 Anh. 3b: Testbogen des vor Ort durchgeführten Hörvergleichs 77 Anh. 3c: Testbogen des vor Ort durchgeführten Hörvergleichs 78 Anh. 3d: Testbogen des vor Ort durchgeführten Hörvergleichs 79 Anh. 3e: Testbogen des vor Ort durchgeführten Hörvergleichs 80 Anh. 3f: Testbogen des vor Ort durchgeführten Hörvergleichs 81 Anh. 4: Erste Partiturseite von „Robbi, Tobbi und das heliozentrische Weltbild“ 82 Erklärung Wir versichern, dass wir die vorliegende Arbeit zu gleichen Teilen selbständig und ohne Benutzung anderer als der angegebenen Quellen angefertigt haben und die Arbeit in gleicher oder ähnlicher Form noch keiner anderen Prüfungsbehörde vorgelegen hat. Alle Ausführungen, die wörtlich oder sinngemäß übernommen wurden, sind als solche gekennzeichnet. Detmold, den 22.10.2009 Daniel Keinath Christopher Tarnow 83