Diplomarbeit Keinath, Tarnow - Erich-Thienhaus

Transcrição

Entwicklung und Erprobung einer Methode zur Integration
binauraler Raumimpulsantworten bei der Mischung von
Mehrspurproduktionen
Diplomarbeit
Hochschule für Musik Detmold
Erich-Thienhaus Institut
vorgelegt von
Daniel Keinath
Christopher Tarnow
Bergstraße 17,
32756 Detmold,
Matr.-Nr. 7904
Alexanderstraße 48,
04109 Leipzig,
Matr.-Nr. 7928
Erstgutachter: Prof. Dr. Dipl.-Ing. Malte Kob
Detmold, den 21. Oktober 2009
Inhaltsverzeichnis
1 Grundlagen
1.1 Binauraltechnik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1.1 Natürliche Richtungswahrnehmung . . . . . . . . . . . . . . . . . . . . . . . . .
1.1.2 Kopfbezogene Stereophonie . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1.3 Betrachtungen zur Kompatibilität raumbezogener und kopfbezogener Systeme .
1.1.4 Systembedingte Probleme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Lineare Systeme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.1 Allgemeine Anmerkungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.2 Impulsantwort . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.3 Fourier-Transformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.4 Diskrete Faltung, schnelle Faltung . . . . . . . . . . . . . . . . . . . . . . . . .
1.3 Andere binaurale Systeme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.1 Binaurale Simulation eines Abhörraums . . . . . . . . . . . . . . . . . . . . . .
1.3.2 Virtuelle Welten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.3 Crosstalk Cancellation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.4 Binaural Sky . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.5 Binaurales Panning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4
4
4
5
5
6
8
8
8
9
10
12
12
13
13
14
15
2 Methode
2.1 Messung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Erfassung und Sortierung der Messdaten . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3 Einbindung in die Digital Audio Workstation (DAW) . . . . . . . . . . . . . . . . . . . .
2.4 Probleme der Methode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4.1 Eindimensional abgebildete Räume . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4.2 Künstlerische Inkompatibilität von Aufnahmeraum und gemessenem Raum . . .
2.4.3 Zusammenfallen des Raumes durch Spiegelung der gemessenen Impulsantworten
2.4.4 Fehlen eines Headtracking-Systems . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4.5 Vernachlässigung spezifischer Richtcharakteristiken der Schallquellen . . . . . . .
2.5 Systemoptimierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.5.1 Spreizung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.5.2 Modifikation der Impulsantworten . . . . . . . . . . . . . . . . . . . . . . . . . .
2.5.3 Ersetzen von Einzelschallquellen durch Phantomschallquellen . . . . . . . . . . .
2.5.4 Resampling von Impulsantworten . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.5.5 Bewegte Schallquellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
16
16
19
20
21
21
22
22
23
23
25
25
25
27
27
28
3 Hörvergleich
3.1 Versuchs-Design . . . . . . . .
3.1.1 Testabschnitt 1 . . . .
3.2 Auswertung des Hörvergleichs
.
.
.
.
.
.
.
.
.
.
29
29
30
32
33
36
38
39
41
43
45
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4 Fazit
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
49
1
5 Appendix
5.1 Betrachtungen zur Aufnahme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.1.1 Hauptmikrofonsysteme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.1.2 Aufstellung der Stützmikrofone . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2 Betrachtungen zur Mischung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2.1 Platzierung von Stereosignalen . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2.2 Platzierung von Hauptmikrofonsignalen . . . . . . . . . . . . . . . . . . . . . . .
5.2.3 Platzierung von Raummikrofonsignalen . . . . . . . . . . . . . . . . . . . . . . .
5.2.4 Folgen von Übersprechen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2.5 Einstellung der Distanz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2.6 Zusätzlicher Nachhall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2.7 Bassmanagement: virtueller Subwoofer . . . . . . . . . . . . . . . . . . . . . . . .
5.2.8 Parallelen und Gegensätze zwischen raum- und kopfbezogenen Mischungen . . .
5.2.9 Überlegungen zu Rock/Pop/Jazz . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.3 Tipps für die Einbindung in die DAW . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.4 Design eines VST Plugins . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.4.1 Entwurf eines idealen Plugins . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.5 Betrachtungen zum Hörbild / Ästhetische Betrachtungen . . . . . . . . . . . . . . . . .
5.5.1 Auswirkungen auf die Wahrnehmung des Tonsatzes . . . . . . . . . . . . . . . . .
5.5.2 Umhüllung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.5.3 Position des Hörers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.5.4 In-Kopf-Lokalisation (IKL) als kreatives Element innerhalb einer Mischung . . .
5.5.5 Außer-Kopf-Lokalisation (AKL) als kreatives Element innerhalb einer Mischung .
5.5.6 Ort und Neue Musik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.6 Beispielmischungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.6.1 R. Murray Schaffer: „Epitaph for Moonlight“ für Chor a capella . . . . . . . . . .
5.6.2 Stereo Inn: „St. John’s“ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.6.3 „Robbi, Tobbi und das heliozentrische Weltbild“ . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
50
50
50
50
51
51
52
52
52
53
53
53
54
54
55
56
57
61
61
61
62
62
62
63
64
64
64
65
Danksagung
67
Literatur
69
Anhang
70
Erklärung
82
2
Abstract
In post-production, a polymicrophonic multi-track recording can be transformed into a two-track mix by
convoluting the signal of each track with a selected binaural room impulse response. Using headphone
reproduction, this two track mix will allow an approach to the original sound field that will be as realistic
as a dummy head recording of the same event, while preserving similar possibilities of artistic and creative
modifications to the tonmeister as in usual mixes for loudspeaker reproduction.
In a listening test with 62 subjects, different binaural mixes and manipulations of the impulse responses
were rated.
In this test, the proposed method for auralization was rated equal to a usual dummy head recording.
Also, it could be shown that real reflection patterns significantly improve sound source localization..
Furthermore, occuring front-back-revearsals can be reduced by using virtual phantom sources.
Tips and experiences, as well as instructions for a simple implementation are included.
Zusammenfassung
Eine Mehrspurproduktion in Polymikrofonie lässt sich bei der Nachbearbeitung durch gezielt vorgenommene Faltungen der Einzelspuren mit binauralen Raumimpulsantworten in eine Zweispurmischung
überführen, die bei Kopfhörerwiedergabe ein Hörereignis ermöglicht, das in seiner Realitätsnähe mit einer Kunstkopfaufnahme desselben Schallereignisses vergleichbar ist, dabei aber dem Tonmeister ähnliche
künstlerisch-gestalterische Eingriffe wie bei einer Mischung für raumbezogene Wiedergabe bewahrt. In
einem Hörvergleich mit 62 Probanden wurden sowohl einzelne angefertigte Mischungen bewertet als auch
unterschiedliche Manipulationsmöglichkeiten der Impulsantworten untersucht.
Hierbei zeigte sich, dass die vorgestellte Methode zur Auralisation herkömmlicher Aufnahmen gleichwertig mit einer Kunstkopfaufnahme desselben Schallereignisses bewertet wurde. Auch konnte gezeigt
werden, dass gemessene binaurale Reflexionsmuster die Ortung deutlich verbessern und auftretende
Vorne-Hinten-Vertauschungen durch die Verwendung virtueller Phantomschallquellen minimiert werden
können.
Hinweise und Erfahrungswerte sowie Anleitungen einer einfachen Implementierung sind der Arbeit
beigefügt.
3
Einleitung
Während raumbezogene Wiedergabe- und Aufnahmesysteme in den letzten Jahrzehnten wesentlich
weiterentwickelt wurden, könnte man im Falle der Binauraltechnik gerechtfertigterweise von einem „Dornröschenschlaf“ sprechen: War der Kunstkopf noch in den 80er Jahren ein beliebtes Werkzeug der Hörspielund Musikproduktion, fristen binaurale Aufnahmen mittlerweile ein Nischendasein. In der Überzeugung,
dass dies ebenso bedauerlich wie ungerechtfertigt ist, möchten wir in dieser Arbeit Möglichkeiten aufzeigen und untersuchen, wie gewöhnliche Mehrspuraufnahmen auf einfache und wirkungsvolle Weise in
binaurale Mischungen überführt werden können. Als angehende Tonmeister möchten wir dabei sowohl
auf technische als auch auf künstlerisch-ästhetische Zusammenhänge eingehen.
Mit Hilfe eines Kunstkopfes und eines Studiolautsprechers nahmen wir zu diesem Zweck in zwei Konzertsälen binaurale Raumimpulsantworten auf. Grundlage war dabei die Annahme, dass das natürliche
binaurale Reflexionsmuster eines echten Raumes die Ortungsschärfe und Natürlichkeit einer Schallquelle
wesentlich unterstützt. Diese Annahme wurde später in einem Hörvergleich überprüft. Die so gewonnenen
Impulsantworten konnten auf einfache Weise mit Hilfe von Faltungsalgorithmen auf die Einzelspuren unterschiedlicher Mehrspurproduktionen angewendet werden. Bildlich gesprochen wurden also die Signale
der Einzelspuren über virtuelle Lautsprecher in den entsprechenden Konzertsälen wiedergegeben – die
hier behandelte und vorgestellte Methode befasst sich also keineswegs mit der Simulation von Abhörräumen, wie dies bereits vielfach implementiert ist, sondern zielt vielmehr darauf ab, eine künstlerisch und
ästhetisch befriedigende Interpretation eines Klanggeschehens zu erschaffen.
In Vorversuchen mit einzelnen Mischungen stellte es sich bald als Chance gegenüber herkömmlichen
binauralen Aufnahmen heraus, dass es aufgrund der nach Ortungsrichtung separierten Platzierung der
Schallquellen möglich war, die Signale auf unterschiedliche Weise so zu bearbeiten, dass sie die Ortung
in bestimmte Richtungen begünstigen. Dabei konzentrierten wir uns insbesondere auf das Problem der
Vorne-Hinten-Vertauschung. Da wir vor allem vor dem Hintergrund von Musikmischungen vorgingen,
beschränkten sich alle Bearbeitungen und Untersuchungen auf Schallquellen in der Horizontalebene. Die
unterschiedlichen Eingriffsmöglichkeiten wurden ebenfalls in erwähntem Hörvergleich bewertet und werden ausführlich in dieser Arbeit vorgestellt.
Für den Rezipierenden und Erschaffenden ergeben sich aus der Herangehensweise zwangsweise ästhetische und praktische Fragestellungen. Da wir diese Arbeit als einen Beitrag von Tonmeistern für
Tonmeister verstanden wissen möchten, gehen wir auf diese Zusammenhänge in einem ausführlichen
Appendix mit konkreten Beispielen und Anwendungshinweisen ein.
4
1
1.1
1.1.1
Grundlagen
Binauraltechnik
Natürliche Richtungswahrnehmung
Da sich kompliziertere Wellenfelder als Überlagerung mehrerer Schallquellen darstellen lassen, sei zur
Erläuterung zunächst auf das menschliche Richtungshören im Falle einer Schallquelle im Freifeld eingegangen. Zusammenfassend lässt sich die Ortung hierbei auf den speziellen Frequenzgang der Ohrsignale
sowie interaurale Zeit- und Pegeldifferenzen zurückführen, wobei es aufgrund ihrer Unterschiedlichkeit
angebracht ist, die Ortungsmechanismen in Median- und Horizontalebene getrennt zu betrachten.
Abbildung 1: Kopfbezogenes Koordinatensystem nach [Blauert 1974]
In der Horizontalebene wertet unser Gehör besonders die Unterschiede der am linken und rechten
Ohr eintreffenden Signale aus: Bei tiefen Frequenzen, deren Wellenlänge größer ist als der Kopfdurchmesser (unterhalb von etwa 300 Hz), wird der Schall um den Kopf herum gebeugt, d.h. es kommt zu
interauralen Laufzeitdifferenzen (ITD = interaural time difference), welche etwa in der Größenordnung 0,2 bis 1,5 ms angesiedelt sind [Toole und Sayers 1965]. Bei Frequenzen etwa ab 1 kHz kommt es
durch Reflexion zu Druckstau auf der der Schallquelle zugewandten und zu Schallschatten auf der der
Schallquelle abgewandten Seite des Kopfes, d.h. zu interauralen Pegeldifferenzen (IAD = interaural
amplitude difference) [Rayleigh, 1907]. Insgesamt sind für die Ortung in der Horizontalebene also Phasen, Pegel- und Frequenzgangunterschiede verantwortlich, die durch unwillkürliche Drehungen des Kopfes
noch deutlich präzisiert werden können [Thurlow und Runge 1967]. Den frequenzabhängig unterschiedlichen Ortungsmechanismen wird durch die verschiedenen Stereomikrofonierungstechniken Laufzeit- und
Intensitätsstereophonie Rechnung getragen, wobei Trennkörpermikrophontechniken (OSS, Clara), welche abermals eng mit der Kunstkopftechnik verwandt sind, am ehesten zwischen beiden eine Brücke zu
schlagen vermögen.
Ein weiter wichtiger Faktor beim menschlichen Richtungshören ergibt sich aus den Bündelungen der
Ohrmuscheln und den daraus resultierenden Klangverfärbungen. Diese sind für die Vorne-/Hinten-Ortung
sowie die Ortung in der Vertikalebene (Medianebene) von entscheidender Bedeutung.
Die vom Winkel des Schalleinfalles abhängige Schallübertragung am Eingang des Gehörganges wird
zusammenfassend als kopfbezogene Übertragungsfunktion (Head Related Transfer Function, HRTF) bezeichnet und ist grundlegend von Shaw erforscht worden [Shaw 1982]. Nach Blauert werden bestimmte
Frequenzbereiche bei Beschallung mit schmalbandigem Rauschen bevorzugt bestimmten Richtungen in
der Medianebene zugeordnet [Blauert 1974]. Diese Frequenzbereiche werden als „richtungsbestimmende
Bänder“ bezeichnet (Näheres hierzu s. 2.5, Systemoptimierung).
Dabei kann das Gehirn zwischen der Klangfarbe der Schallquelle einerseits und den richtungsbestimmenden Klangverfärbungen andererseits unterscheiden. Das setzt jedoch voraus, dass der Klang bekannt
5
Abbildung 2: Richtungsbestimmende Bänder nach [Blauert 1974]
oder einzuordnen sein muss [Blauert 1974], [Rumsey 2001]. Daher kommt es bei Signalen, die im natürlichen Umfeld des Menschen nicht oder nur selten auftreten, häufig zur Richtungsinversion oder Fehlortung. Signale mit breitbandigem Frequenzgang können dagegen vom Menschen leicht geortet werden.
Nach Schirmer spielt des weiteren bei bestimmten Frequenzen auch der Oberkörper für die Richtungswahrnehmung eine Rolle [Schirmer 1970].
1.1.2
Kopfbezogene Stereophonie
Ausgangspunkt der kopfbezogenen Stereophonie ist die Annahme, dass das Gehör ohnehin nur zwei
Eingänge besitzt, nämlich die beiden Trommelfelle. Alle Informationen, die beim Hörer zur Bildung eines
Hörbildes führen, d.h. zu Aussagen über das Schallfeld und seine Geometrie, müssen dementsprechend in
den Signalen an den Trommelfellen enthalten sein [Plenge et al. 1969]. Es genügt also die Nachbildung
der Ohrsignale. Daher wird dieses Verfahren auch als dichotische oder binaurale (also getrenntohrige)
Übertragung bezeichnet. Anders ausgedrückt könnte man sagen, die Kunstkopfstereophonie greift in der
Kette Schallfeld - Außenohr - Innenohr hinter dem Außenohr ein. Der Kunstkopf ist dementsprechend
die künstliche Nachbildung eines menschlichen Kopfes, in dessen Gehörgänge Mikrofone (Druckempfänger) eingesetzt sind. Verbreitete Kunstköpfe sind etwa Neumann KU100, Knowles Electronic KEMAR,
Brüel & Kjær A/S, Head Acoustics HMS und HSUl, Cortex Electronic MK1 u.a.. In einigen Fällen findet
sich des weiteren ein angedeuteter Rumpf. Somit ist eine Nachbildung der für die Ortung in der Horizontalebene wichtigen Elemente gewährleistet. Durch die Nachbildung der Ohrmuscheln (gewissermaßen
durch das Erstellen eines „Norm-Ohres“) wird die Außenohrübertragungsfunktion nachgebildet, die, wie
zuvor erwähnt, für die Richtungswahrnehmung in der Medianebene und die Vorne-/Hinten-Ortung von
entscheidender Bedeutung ist. Dies wird unter anderem durch die Experimente von Freedman und Fisher unterstrichen, wonach die Richtungswahrnehmung bei der Kunstkopfstereophonie ohne Nachbildung
einer Ohrmuschel erwartungsgemäß deutlich verschlechtert ist [Freedman und Fisher 1968].
Beim Kunstkopf stellt sich somit für jede beliebige Schalleinfallsrichtung „jeweils die richtige Übertragungsfunktion ein“ [Blauert 1974]. Die Wiedergabe erfolgt prinzipbedingt über Kopfhörer, damit die
Richtwirkung der Ohrmuschel nicht erneut zur Geltung kommen kann. Es ist daher die „Methode mit
Kopfhörerwiedergabe“ [Blauert 1974]. Nach [Plenge et al. 1969] ist das erneute Durchlaufen des Ohrkanals,
welches ebenfalls eine Frequenzgangsänderung zur Folge hat, dabei zu vernachlässigen. Der Gehörsinn
scheint sich diesen zeitinvarianten Veränderungen anpassen zu können.
1.1.3
Betrachtungen zur Kompatibilität raumbezogener und kopfbezogener Systeme
Bei der Wiedergabe raumbezogener Signale über Kopfhörer ergeben sich nach [Theile 1984] die folgenden Probleme:
– Raumbezogene Signale enthalten selbst keine kodierte räumliche Information, welche auf zuvor
erläuterte Weise beim natürlichen Hören bzw. der Binauraltechnik erreicht wird.
– Da das Außenohr durch das Aufsetzen des Kopfhörers unwirksam ist, werden lediglich die Positionen
der beiden Kopfhörerkapseln vom Gehirn erkannt. Es kommt somit zur In-Kopf-Lokalisation (IKL),
d.h. zu Phantomschallquellen im Kopf.
6
Umgekehrt lässt sich zur Wiedergabe kopfbezogener Signale über Lautsprecher folgendes anmerken:
– Lediglich die Positionen der beiden Lautsprecher können vom Gehirn bestimmt werden.
– Somit kann die ursprünglich im Signal des Kunstkopfes enthaltene räumliche Information vom
Gehirn nicht dekodiert werden. Die Aufnahme weist nun hörbare klangliche Verfärbungen auf.
Die hier auftretenden klanglichen Verfärbungen können jedoch nach Theile minimiert werden, wenn statt
der Freifeldentzerrung die Diffusfeldentzerrung für den Kunstkopf gewählt wird, so wie dies bei den
meisten Studiomikrophonen der Fall ist. Auf diese Weise kann eine erhöhte Lautsprecherkompatibilität
erreicht werden. Dies hat folgende Gründe:
– Durch die Diffusfeldentzerrung wird der Einfluss der Richtcharakteristik des Kunstkopfes auf die
Klangfarbe minimiert, da die Summe aller richtungsspezifischen linearen Verzerrungen entzerrt
wird (es wird gewissermaßen das Integral gebildet). Aus diesem Grund empfiehlt Theile auch die
Verwendung eines IRT-diffusfeldentzerrten Kopfhörers, da die Kopfhörerübertragungsfunktion die
Außenohrübertragungsfunktion im Diffusfeld korrekt abbilden können sollte.
– Unter normalen Bedingungen bei der Aufnahme, d.h. in Räumen, in denen die Nachhallzeit nicht
extrem klein und somit der Hallradius nicht sehr groß ist, spielt außerdem - schon bei kleinem
Abstand zur Schallquelle - der Diffusfeldfrequenzgang eines Mikrophons eine erhöhte Rolle. Gerade
der Kunstkopf wird im Allgemeinen in größerem Abstand zur Schallquelle aufgestellt, als dies bei
Mikrophonen in Polymikrophonie der Fall ist.
– In Konzertsälen ist der Klangeindruck wesentlich durch die Frequenzabhängigkeit der Nachhallzeit
bestimmt.
1.1.4
Systembedingte Probleme
– Die HRTFs unterschiedlicher Personen sind – trotz einiger grundsätzlicher Gemeinsamkeiten - sehr
verschieden. Kommerzielle binaurale Systeme, die für eine breite Masse unterschiedlicher Anwender
gedacht sind, scheitern oftmals an dieser Tatsache. 1995 führten Møller et al. eine Messreihe mit 40
Personen durch. Dabei stellten sie fest, dass die unterschiedlichen HRTFs bis zu einer Frequenz von
ca. 8 kHz einander recht ähnlich waren. Oberhalb dieser Frequenz fand man zwar generelle Übereinstimmungen, eine Mittelung aller Kurven führte jedoch zur unbrauchbaren Abflachung derselben
[Møller et al. 1995].
– Durch die unterschiedlichen individuellen HRTFs kommt es vor allem zu Vorne-Hinten-Vertauschung.
Schon [Rayleigh 1907] stellte diese Richtungsinversionen fest. Die Gründe hierfür sind die identischen interauralen Laufzeit- und Pegeldifferenzen bei Schalleinfall von vorne bzw. hinten. Als „in
cone“-Fehler bezeichnet man des weiteren Vertauschungen, die innerhalb des Kegels gleicher ITDs
und IADs um den Hörer geschehen.
– Schallquellen erscheinen bei der Wiedergabe binauraler Signale häufig gespreizt („hole in the middle“, vgl. [Griesinger 1988]) und leicht eleviert.
7
– Kopfbewegungen, die, wie zuvor erwähnt, zur Präzisierung der räumlichen Wahrnehmung führen,
sind schwer in ein Wiedergabesystem einbindbar, auch wenn es hier natürlich mit Head Tracking
Systemen in neuerer Zeit Fortschritte gegeben hat. Head Tracking bezeichnet eine Technik, bei
der die Kopfbewegungen des Zuhörers vom Wiedergabesystem überwacht und in die Wiedergabe
eingebunden werden. Dies bedeutet in der Praxis, dass die verwendete HRTF kontinuierlich auf den
jeweils aktuellen Stand gebracht werden muss. Nach [Lentz et al. 2007] sollte diese Aktualisierung
nicht länger als 35 ms dauern, abhängig von der Art der abgebildeten Schallquelle. Head Tracking
kann besonders hilfreich sein zur Verhinderung der Vorne-Hinten-Richtungsinversion, da durch die
Kopfbewegungen interaurale Zeit- und Pegeldifferenzen eine zusätzliche Rolle spielen. Mit Head
Tracking kann daher die Ortungsgenauigkeit, die ein bestimmtes System hervorruft, enorm erhöht
werden.
– Bei der Wiedergabe von kopfbezogenen Signalen fehlen visuelle Informationen, die beim natürlichen
Hören die Ortung unterstützen.
– Kopfhörer haben unterschiedliche Frequenzgänge und Entzerrungen, was zu missverständlichen
Wahrnehmungen führen kann [vgl. Theile 1984].
– Verwendet man anstelle eines Kunstkopfes den Kopf einer Versuchsperson, so ist die erzielte Ortungsgenauigkeit zwar unter Umständen höher [vgl. Minnaar et al. 2001], man hat jedoch gleichzeitig mit den Bewegungen, d.h. der sich ändernden HRTF und Geräuschen der Versuchsperson zu
kämpfen [Blauert 1974].
8
1.2
1.2.1
Lineare Systeme
Allgemeine Anmerkungen
Grundlage für die Bearbeitung digitaler Audiosignale mit den für die Richtungswahrnehmung ausschlaggebenden binauralen Raumimpulsantworten bilden die Eigenschaften der sogenannten „linearen zeitinvarianten Systeme“, im Englischen als „linear time-invariant systems“ bezeichnet – kurz: LTI-Systeme.
Zahlreiche verschiedene Vorgänge in der Akustik und in der Tonstudiotechnik lassen sich auf diese Weise
eindeutig beschreiben. Darüber hinaus ist es möglich, jedes LTI-System, dessen Übertragungsfunktion
einmal in Form einer Impulsantwort festgehalten wurde, auf digitalem Wege zu reproduzieren.
Abbildung 3: LTI-System im Zeitbereich
Als LTI-Systeme bezeichnet man diejenigen Übertragungssysteme, die bei der Überführung eines
gegebenen Zeitsignals s(t) in eine Systemantwort g(t) lediglich lineare Verzerrungen hervorrufen. Als
linear gelten Verzerrungen, bei denen nur die bereits vorhandenen Komponenten des Spektrums in ihrer
Amplitude oder in ihrer Phasenlage verändert werden.
Als lineare Systeme beschreiben lassen sich beispielsweise Pegelsteller, Equalizer, Filter, Kabel oder
auch die Reflexionsmuster realer Räume. Nichtlineare Systeme erzeugen im Gegensatz dazu neue spektrale Komponenten, die zuvor nicht zwingend vorhanden waren. So entstehen zum Beispiel bei Klirrverzerrungen zusätzliche Obertöne (k2, k3, k4... oder k3, k5...). Verzerrungen, die durch ein solches System
hervorgerufen werden, nennt man dementsprechend „nicht-lineare Verzerrungen“. Prinzipiell können Veränderungen, die durch ein lineares Übertragungssystem bewirkt werden, ohne Kenntnis des ursprünglichen Signals – wenngleich in gewissen Grenzen – wieder rückgängig gemacht werden, während dies bei
nichtlinearen Verzerrungen nicht mehr ohne Weiteres möglich ist. Die komplexe Übertragungsfunktion
H(f ) eines LTI-Systems im Frequenzbereich ergibt sich aus dem Verhältnis von Ausgangs- und Eingangsspektrum [vgl. Vorländer 2008]:
H(f ) =
G(f )
S(f )
Dabei enthält H(f ) sowohl Informationen über Pegelverhältnis als auch über Phasenlage/Laufzeit der
jeweiligen Frequenz.
1.2.2
Impulsantwort
Das Übertragungsverhalten eines LTI-Systems kann mitunter sehr komplexe Gestalt annehmen. Während es bei gewöhnlichen Filtern noch möglich ist, das Übertragungsverhalten mit Hilfe mathematischer
Zusammenhänge zu beschreiben, gibt es in der Praxis jedoch eine Vielzahl realer LTI-Systeme, bei denen
eine rechnerisch exakte Beschreibung der Übertragungsfunktion unmöglich ist. So stößt man beispielsweise bald an Grenzen, wenn man versucht, hochkomplizierte Filter, wie das Übertragungsverhalten eines
Raumes zwischen zwei Punkten oder gar eine Außenohrübertragungsfunktion (HRTF), mathematisch zu
beschreiben. Dennoch ist es möglich, jedes noch so komplexe LTI-System messtechnisch exakt zu erfassen
und damit sein Übertragungsverhalten reproduzierbar zu machen.
Eine besondere Art der Anregung, die man sich zu diesem Zweck zunutze macht, ist der Dirac-Impuls.
9
Man stelle sich hierfür zunächst ein beliebiges Zeitsignal s(t) vor, das durch eine Folge von Rechtecken
d(t) der Breite T0 und der Höhe T10 (und damit der Fläche 1) approximiert wird [vgl. Görne 2008]:
s(t) ≈
∞
X
s(nT0 ) d (t − nT0 ) T0
n=−∞
Sei nun gd (t) die Antwort des Systems auf einen einzelnen Rechteckimpuls d(t), so lässt sich aufgrund
des Superpositionsprinzips und der Zeitinvarianz des Systems dessen Antwort auf s(t) näherungsweise als
Summe der einzelnen, gewichteten „Rechteckantworten“ auffassen:
g(t) ≈
∞
X
s(nT0 ) gd (t − nT0 ) T0
n=−∞
Im Folgenden wird die Breite T0 der Rechtecke infinitesimal klein. Das Rechtecksignal gd (t) wird damit
zu einem Dirac-Impuls δ(t). Die Systemantwort auf ein Rechtecksignal wird zur Systemantwort auf einen
Dirac-Impuls, der sogenannten Impulsantwort h(t). Anstelle der Summen-Approximation ergeben sich
nun die beiden exakten Integrale:
Z
∞
s(τ ) δ(t − τ ) dτ
s(t) ≈
−∞
und
Z
∞
g(t) ≈
s(τ ) h(t − τ ) dτ
−∞
Diese beiden Integrale stellen in ihrer Form die mathematische Operation der Faltung (engl. convolution) dar. Mit Hilfe dieser Faltung lässt sich das Verhalten jedes LTI-Systems mathematisch eindeutig
beschreiben. Aus dem ersten Integral geht hervor, dass die Faltung des Eingangssignals s(t) mit einem
Diracstoß δ(t) gleich dem Eingangssignal s(t) ist.
s(t) = s(t) ∗ δ(t)
Anders ausgedrückt bedeutet dies, dass ein Diracstoß an sich die Eigenschaften eines idealen Übertragungssystems im Zeitbereich darstellt, d.h. eines Übertragungssystems, welches das Signal überträgt,
ohne es dabei zu verändern.
Aus dem zweiten Integral geht hervor, dass sich das Ausgangssignal g(t) eines Systems aus der Faltung
des Eingangssignals s(t) mit der Impulsantwort h(t) berechnen lässt.
g(t) = s(t) ∗ h(t)
Um ein LTI-System zu beschreiben, genügt es demnach, dessen Impulsantwort zu kennen. Sie repräsentiert das Verhalten des Systems im Zeitbereich vollständig. Liegt die Impulsantwort eines Übertragungssystems beispielsweise als Ergebnis einer Messung vor, so lassen sich damit die Übertragungseigenschaften
theoretisch auf alle beliebigen Signale anwenden.
1.2.3
Fourier-Transformation
LTI-Systeme können jedoch nicht nur im Zeitbereich beschrieben werden. Mit Hilfe der FourierTransformation ist es möglich, ein Zeitsignal in eine gleichwertige Spektraldarstellung umzuwandeln.
Der eingangs erwähnte komplexe Übertragungsfaktor H(f ), der das LTI-System im Frequenzbereich repräsentiert, also als eine Funktion der Frequenz, lässt sich aus der Impulsantwort h(t) wie folgt berechnen
[ebd.]:
10
Z
∞
h(t)e−j2πf t dt
H(f ) =
−∞
oder
H(f ) = =(h(t))
Ebenso ist es möglich, aus einem vorhandenen Frequenz-/Phasen-Spektrum wiederum eine entsprechende Impulsantwort zu gewinnen:
∞
Z
H(f )e−j2πf t df
h(f ) =
−∞
oder
h(t) = =−1 (H(f ))
Die Fourier-Transformation lässt sich jedoch nicht nur auf Impulsantworten anwenden. Aufgrund der
Tatsache, dass sich jedes Zeitsignal durch eine unendlich dichte Folge von Dirac-Stößen approximieren
lässt, ist es auch möglich, jedes beliebige Zeitsignal mit Hilfe der Fourier-Transformation im Frequenzbereich darzustellen.
Z
∞
s(t)e−j2πf t dt
S(f ) =
−∞
Im Frequenzbereich kann man ein LTI-System also als eine Multiplikation des Eingangsspektrums
S(t) mit dem Übertragungsfrequenzgang H(t) beschreiben [vgl. Vorländer 2008]:
G(f ) = S(f ) · H(f )
Abbildung 4: LTI-System im Frequenzbereich
Diese Multiplikation der Frequenzspektren entspricht demselben Vorgang, der im Zeitbereich mit Hilfe
der Faltung bewerkstelligt wurde. Durch eine inverse Fourier-Transformation lässt sich G(f ) wieder in
das entsprechende Zeitsignal g(t) umwandeln.
1.2.4
Diskrete Faltung, schnelle Faltung
In der Audio-Signalverarbeitung haben wir es meist mit digitalen (also zeitdiskreten) Signalen zu tun.
Dies entspricht einer gewichteten Folge von Dirac-Stößen δ(t). Um die Faltung mit einer (ebenfalls zeitdiskret vorliegenden) Impulsantwort h(t) zu realisieren, wird daher anstelle der Integration die Summation
verwendet [vgl. Görne 2008]:
y(n) =
∞
X
x(k) h(n − k)
k=−∞
Impulsantworten, die in der Theorie unendlich lang sind (vgl. Summationsindex k = −∞...∞), müssen
in der Praxis jedoch zwangsläufig auf eine sinnvolle Länge gekürzt werden. In der digitalen Audiotechnik
beläuft sich eine Impulsantwort – je nach Art des Systems – in der Regel auf eine Dauer von wenigen
Samples bei einfachen Filtern bis hin zu einigen Sekunden bei Faltungshall-Anwendungen, ehe das Signal
im Grundrauschen versinkt oder dauerhaft digital 0 erreicht.
Die einfachste Art, die diskrete Faltung zu realisieren, ist die Implementierung als sogenanntes „FIRFilter“ (FIR: finite impulse response). Die folgende Abbildung zeigt die Struktur eines solchen Filters:
11
Abbildung 5: Schema eines FIR-Filters [vgl. Vorländer 2008]
Hier durchläuft das Eingangssignal x(n) nacheinander eine Reihe von Verzögerungsgliedern z −1 . Während das Signal mit jedem Taktzyklus um eine Position weiter nach rechts wandert, erfolgt im gleichen
Schritt eine Multiplikation jedes Samples mit einem entsprechenden Gewichtungsfaktor b0 ...bn . Die Ergebnisse aller Multiplikationen werden sodann aufsummiert und bilden das Ausgangssignal y(n). Die
Faktoren b0 ...bn , die auch als Filterkoeffizienten bezeichnet werden, repräsentieren dabei, als Folge betrachtet, die Impulsantwort des Systems.
FIR-Filter eignen sich besonders gut zur Implementierung von Filtern mit sehr kurzer Impulsantwort. Ihr entscheidender Nachteil besteht darin, dass mit zunehmender Anzahl der Filterkoeffizienten die
Anzahl der erforderlichen Operationen so immens ansteigt, dass eine Berechnung in Echtzeit selbst für
leistungsstarke Rechner nicht mehr möglich ist.
Eine wesentlich effizientere Lösung zur Implementierung stellt die schnelle Faltung dar. Hierbei macht
man sich die Tatsache zunutze, dass eine Faltung im Zeitbereich einer Multiplikation im Frequenzbereich
entspricht.
Abbildung 6: Schnelle Faltung
Das Eingangssignal wird mit Hilfe eines FFT-Algorithmus (Fast Fourier Transformation) fortlaufend
blockweise (je 2n Samples) in den Frequenzbereich transformiert. Die Impulsantwort wird ebenfalls in den
Frequenzbereich transformiert. Nun genügt eine einfache Multiplikation der Spektren, um zur FourierTransformierten G(f ) des Ausgangssignals zu gelangen. Das Ausgangssignal selbst wird zuletzt durch
eine inverse Fourier-Transformation gewonnen.
Der rechnerische Mehraufwand, den die FFT-Implementierung für den Übergang zwischen Zeit- und
Frequenzbereich zunächst mit sich bringt, ist bei langen Impulsantworten (ab einigen hundert Samples)
bei weitem geringer als der immense Rechenaufwand, den eine FIR-Implementierung hervorriefe. Dank
der schnellen Faltung ist es möglich, selbst bei Impulsantworten von mehreren Sekunden Dauer, auf
gängigen Rechnersystemen zahlreiche Faltungen gleichzeitig und in Echtzeit vorzunehmen.
Da auch bei der Musikmischung mit Hilfe binauraler Raumimpulsantworten stets viele Faltungen
gleichzeitig und in Echtzeit benötigt werden, wird in unserer Arbeit im Folgenden ausschließlich die
schnelle Faltung zum Einsatz kommen.
12
1.3
Andere binaurale Systeme
Das folgende Kapitel beschreibt einige Anwendungen, in denen die Binauraltechnik gegenwärtig zum
Einsatz kommt. Nicht zuletzt ist es der rasant voranschreitenden Computer-Technologie zu verdanken,
dass es mittlerweile möglich ist, auch sehr komplexe Systeme zu realisieren, deren Umsetzung früher
entweder überhaupt nicht oder zumindest nicht unter Echtzeitbedingung möglich gewesen wäre. Alle hier
beschriebenen Anwendungen unterscheiden sich jedoch in wesentlichen Punkten von der in dieser Arbeit
vorzustellenden Methode der binauralen Synthese.
1.3.1
Binaurale Simulation eines Abhörraums
Bereits Ende der 1990er Jahre wurde vom Institut für Rundfunktechnik (IRT) und der Firma Studer
unter dem Namen „Binaural room scanning“ ein Verfahren entwickelt, das es erlaubt, mit Hilfe binauraler
Raumimpulsantworten über Kopfhörer virtuelle Lautsprecheranordnungen zu simulieren [vgl. Mackensen,
Felderhoff et al. 1999].
Hierfür werden zunächst mit einem Kunstkopf in einem realen Raum – beispielsweise einem Regieraum
– für jeden Lautsprecher binaurale Raumimpulsantworten gemessen.
In einem Signalprozessor werden eingehende Audiosignale mit den entsprechenden LautsprecherImpulsantworten gefaltet und über Kopfhörer wiedergegeben. Die zu bearbeitenden Audiosignale können
mehrkanalig, sowohl in Stereo als auch in Surround, zugeführt werden. Für jeden Lautsprecherkanal ist
dabei eine separate Faltung mit der entsprechenden – wohlgemerkt 2-kanaligen – Impulsantwort erforderlich. Es ist mit diesem System prinzipiell möglich, jede beliebige Lautsprecheranordnung zu simulieren.
Durch die Verwendung eines Headtrackers ist es zudem möglich, die verwendeten Impulsantworten
dynamisch an die Blickrichtung des Hörers anzupassen. Dies hat zur Folge, dass die virtuellen Lautsprecher aus Sicht des Hörers stets ortsstabil bleiben, anstatt mit dessen Bewegungen mitzuwandern. Wie
bereits erwähnt, kann durch die Einbeziehung der Kopfbewegungen in das System gegenüber der statischen Anwendung besonders dem Problem der Vorne-Hinten-Vertauschung erheblich entgegengewirkt
werden.
Das folgende Schema veranschaulicht die Funktionsweise des Systems:
Abbildung 7: Binaural Room Scanning [vgl. Studer 2000]
Derartige Systeme haben mittlerweile eine gewisse Verbreitung gefunden. Neben Studer BRS finden
13
sich ähnliche Lösungen bei EMT (Phoenix), Fraunhofer Institut (Ensonido) oder Beyerdynamik (Headzone).
1.3.2
Virtuelle Welten
Die Simulation virtueller Welten ist ein Gebiet, das mit noch weit höherem technischen Aufwand
verbunden ist. Ziel derartiger Projekte ist es, Personen in eine vollständig computergenerierte, möglichst
realistische Umgebung zu versetzen. Die Personen sollten die virtuelle Welt im besten Falle mit allen
Sinnen erfahren und intuitiv mit ihr interagieren können. Um dies zu bewerkstelligen, registriert das
System die Bewegungen des Probanden und reagiert darauf in Echtzeit.
Die aufwändige Videoprojektion auf mehrere Leinwände, von denen die Versuchsperson umgeben ist,
und der Gebrauch von 3D-Brillen erzeugen einen plastischen Eindruck, der dem Probanden das Gefühl
vermittelt, sich in einer echten Umgebung zu bewegen. Ein Beispiel hierfür ist das CAVE-Projekt an der
RWTH Aachen.
Um das Ziel einer möglichst hohen Realitätstreue zu erreichen, bedarf es jedoch auch der Schaffung
einer virtuellen Akustik, die den Agierenden ebenso vollständig umgibt, wie es ihm sein visueller Eindruck
vermittelt. Bei der Umsetzung dieser Idee finden häufig binaurale Signale Verwendung, jedoch können
dabei auch andere Wiedergabeverfahren wie die Wellenfeldsynthese zum Einsatz kommen. Ein wesentlicher Bestandteil einer solchen virtuellen Akustik ist die Simulation verschiedener Räume. Mit Hilfe von
Raytracing-Verfahren werden in Verbindung mit HRTFs dreidimensionale Reflexionsmuster von Räumen
generiert. Die Schallereignisse, mit denen eine Person in der virtuellen Welt konfrontiert wird, können so
in einer plastischen, räumlichen Umgebung wahrnehmbar gemacht werden.
Mit Hilfe der sogenannten Übersprechkompensation (engl. „crosstalk cancellation“, CTC) können
binaurale Signale auch über Lautsprecher wiedergegeben werden. Erfolgt die Übersprechkompensation
dabei dynamisch, also unter Zuhilfenahme eines Headtrackers, ist es dem Hörer sogar möglich, sich mehr
oder weniger frei vor den Lautsprechern zu bewegen.
1.3.3
Crosstalk Cancellation
Eine wesentliche Bedingung für die Wiedergabe binauraler Signale über Lautsprecher ist die saubere Trennung zwischen den Kanälen. Das Signal, das für ein Ohr des Hörers bestimmt ist, darf auch
nur dieses Ohr erreichen. Bei einem Kopfhörer ist diese Bedingung per se gegeben, da sich die Membrane unmittelbar vor dem Ohr befindet. Versucht man, ein binaurales Signal mittels einer StereoLautsprecheraufstellung wiederzugeben, so ergibt sich zwangsläufig das Problem des Übersprechens:
Abbildung 8: Crosstalk, aus [Vorländer 2008]
Um dennoch eine gute Trennung der Kanäle zu bewerkstelligen, müssen die Übersprech-Signalwege
(linker Lautsprecher → rechtes Ohr, bzw. rechter Lautsprecher → linkes Ohr) aktiv kompensiert werden.
Ihre Übertragungsfunktionen H LR und H RL müssen hierzu bekannt sein. Die Kompensation ihrerseits
verursacht jedoch erneutes Übersprechen, das wiederum kompensiert werden muss. Erst durch mehrmaliges Wiederholen dieses Vorgangs kann eine ausreichende Kanaltrennung erreicht werden.
14
Die Iterationen lassen sich nach [Møller 1992] auch in einer expliziten Form ausdrücken:

YL =
1
L



H RR
H RL


·X L −
·X R 
·
H LL · H RR − H LR · H RL
 H LL · H RR − H LR · H RL

|
{z
}
|
{z
}
CT CLL
CT CRL
Entsprechendes gilt für Y R , so dass sich der ganze Vorgang in folgendem Schema veranschaulichen lässt:
Abbildung 9: Crosstalk Cancellation, aus [Vorländer 2008]
1.3.4
Binaural Sky
Unter den binauralen Wiedergabeverfahren geht der sogenannte „Binaural Sky“ von [Menzel, Wittek
et al. 2005] noch einen Schritt weiter. Dieses System wurde ebenfalls vom Institut für Rundfunktechnik entwickelt. Es kombiniert die binaurale Simulation eines Abhörraumes mit Wellenfeldsynthese und
Crosstalk Cancellation.
Mit Hilfe eines Rings aus 22 Lautsprechern, der sich oberhalb des Hörers befindet, werden über
Wellenfeldsynthese zwei fokussierte Schallquellen in der Nähe des Kopfes erzeugt.
Abbildung 10: Binaural Sky, aus [Menzel, Wittek et al. 2005]
Diese ersetzen in ihrer Funktion gewissermaßen zwei Lautsprecher. Mittels Headtracker werden Kopfbewegungen registriert, so dass das System die Position der Schallquellen automatisch mitführen kann
(rechte Abbildung).
Nun werden zusätzlich die Signale, die den beiden Schallquellen zugeführt werden, mit Hilfe der
Crosstalk Cancellation von Übersprechen befreit. Da sich die beiden Quellen ohnehin bereits mit dem
Hörer mitbewegen, bleibt ihre relative Position zu dessen Ohren immer konstant. Deshalb genügt hier
eine lediglich statische Implementierung des CTC-Algorithmus. Aus dieser Anordnung entsteht somit eine
Art virtueller Kopfhörer, mit dem es möglich ist, beiden Ohren des Hörers getrennte binaurale Signale
zuzuführen.
15
An dieser Stelle kommt nun die zu Anfang des Kapitels beschriebene binaurale Simulation eines
virtuellen Abhörraumes zum Einsatz, mit dem Unterschied, dass der echte Kopfhörer nicht mehr benötigt
wird, da er vollständig durch den Binaural Sky ersetzt wird. Mit der Technik des Binaural Sky ist es also
möglich, eine Abhörumgebung zu schaffen, in der weder echte Lautsprecher das Sichtfeld einschränken
noch ein Kopfhörer benötigt wird.
1.3.5
Binaurales Panning
Die bis hierher beschriebenen Systeme – mit Ausnahme der Virtual Environment-Anwendungen –
setzen die Binauraltechnik ausschließlich wiedergabeseitig ein.
Sie erfordern stets ein bereits vorliegendes, „fertiges“ Audio-Produkt, welches sie auf ihre Weise für die
Wiedergabe aufbereiten. Während das BRS-Verfahren bereits vorhandene, raumbezogene Stereomischungen nutzt, um sie auf virtuellen Lautsprechern wiederzugeben, und der Kopfhörer damit zum binauralen
„Lautsprecherersatz“ wird, geht CTC den umgekehrten Weg, indem es die Wiedergabe von bereits fertigen binauralen Signalen über Lautsprecher ermöglicht und somit wiederum einen „Kopfhörerersatz“
darstellt.
Abbildung 11: Binaural Panning in der DAW Logic [www.apple.com]
Ein gänzlich anderes Konzept verfolgt das binaurale Panning, wie es zum Beispiel in der DAW Logic
implementiert ist (s. Abb. 11).
Die Idee des binauralen Pannings besteht darin, schon bei der Mischung von Musik oder anderen
Tonaufnahmen, also noch im Produktionsprozess, binaural bearbeitete Signale zu integrieren, die als
solche in das Endergebnis, also in den fertigen Stereomix, eingehen. Faltet man einzelne Kanäle mit
HRTFs unterschiedlicher Richtung, so lässt sich dadurch jeder Schallquelle ihr jeweils gewünschter Platz
im virtuellen Raum zuweisen.
Mit der Verwendung des binauralen Pannings in der Mischung wird der Binauraltechnik auch ein
künstlerischer Stellenwert zuteil. Ihr Einsatz eröffnet über die rein technische Faszination hinaus dem
kreativen Umgang mit der Materie neue Möglichkeiten, und die Art und Weise ihrer Verwendung beeinflusst letztlich auch die ästhetische Qualität des Endergebnisses.
Binaurales Panning kommt der im Folgenden vorgestellten Methode am nächsten. Wie wir zeigen
werden, ist jedoch auch die Abbildung natürlicher Reflexionsmuster für die Qualität der binauralen Simulation von entscheidender Bedeutung, der beim Konzept des binauralen Pannings mit trockenen HRTFs
nicht genüge getan wird.
16
2
Methode
Abbildung 12: Prinzip der vorgestellten Methode
Abbildung 12 veranschaulicht noch einmal die in der Einleitung bereits umrissene vorzustellende Methode zur Auralisation einer Mehrspuraufnahme. Im Folgenden möchten wir jedem der dargestellten
Schritte ein erläuterndes Kapitel zur Seite stellen und dazu ermutigen, zur Verdeutlichung des Gesamtzusammenhanges bei Bedarf zu obiger Grafik zurückzukehren. Es sei im Weiteren zudem von „Binauralisierung“ gesprochen.
2.1
Messung
In zwei Konzertsälen der Hochschule für Musik Detmold wurden Impulsantworten gemessen: Im
Brahmssaal sowie im 2009 wiedereröffneten Konzerthaus.
Der Brahmssaal (Abb. 13) ist ein kleiner Kammermusiksaal in „Schuhschachtel“ - Form mit einem
Gesamtvolumen von ca. 800 m³. Nach [Potratz 2005] beträgt seine mittlere Nachhallzeit in leerem Zustand
RTmid_Brahmssaal = 1,03 s. Nach [Görne 2008] ermittelt sich der Hallradius des Saales aus
r
rH = 0.057 ·
V
T
zu rH_Brahmssaal = 1,59 m.
Das Konzerthaus ist ein Konzertsaal mittlerer Größe mit einem Gesamtvolumen von ca. 2000 m³. Bei
einer mittleren Nachhallzeit von RTmid_Konzerthaus = 1,6 s (Messung vom 24.03.2009 der SIAP Acoustic
Systems B.V., Uden) in leerem Zustand ergibt sich ein Hallradius von rH_Konzerthaus = 2,02 m.
Während der Messung wurde ein Studiolautsprecher Geithain RL901K auf mehreren Kreisbahnen
unterschiedlicher Radien um einen Kunstkopf Neumann KU100 in 10 Grad-Schritten bewegt. Es wurden
17
Abbildung 13: Brahmssaal der HfM Detmold
Abbildung 14: Konzerthaus der HfM Detmold
an jeder Position Chirps mit einer Länge von 23,7 s (entspricht einer Länge von 220 Samples bei einer
Samplingfrequenz von 44,1 kHz) über einen Frequenzbereich von 50 Hz - 18 kHz mit einer Auflösung von
24 Bit und 44,1 kHz aufgenommen. Durch die Errechnung der Kreuzkorrelation zwischen dem trockenen
und dem aufgenommenen Signal im Programm Magix Sequioa konnte so an jeder Position eine binaurale
Raumimpulsantwort (BRIR = binaural room impulse response) gewonnen werden.
Neben Impulsantworten in der Horizontalebene nahmen wir an jedem Punkt jeweils auch einen um
45° nach oben und unten elevierten Impuls auf (s. Abb. 15, δ 1 = 45°, δ 2 = 0°, δ 3 = -45°). Dies erreichten
wir durch entsprechende Neigung des Kunstkopfes (s. Abb. 16 / Abb. 17). Für weitere Versuche nahmen
wir darüber hinaus an jedem Punkt nicht-binaurale Impulsantworten auf. Dies geschah mit Hilfe zweier
diffusfeldentzerrter Druckempfänger DPA 4006 im Abstand des Kopfdurchmessers sowie eines am gleichen
Ort platzierten, mit einer Druckstaukugel bestückten Neumann KM130.
Um den Messaufwand zu halbieren, wurde jeweils nur der linke Halbkreis (also Impulse für 0° ≤ ϕ
≤ 180°) gemessen. Da der Kunstkopf in beiden Fällen auf der Mittelachse des Saales platziert wurde
und beide Säle symmetrisch aufgebaut sind, konnten die Impulsantworten der jeweils anderen Kreishälfte
anschließend durch Spiegelung, d.h. Vertauschung des linken und rechten Kanals generiert werden.
18
Abbildung 15: Messaufbau
Abbildung 16: Kunstkopf während der Messung im Brahmssaal der HfM Detmold
19
Abbildung 17: Kunstkopf während der Messung im Konzerthaus der HfM Detmold
Als Kreisradien legten wir für den Brahmssaal 1,5 m (entspricht in etwa rH_Brahmssaal ) und 3 m, für
das Konzerthaus 2 m (entspricht in etwa rH_Konzerthaus ), 4 m und 8 m fest. Im Brahmssaal wurden des
weiteren zusätzliche Impulse des rechten Halbkreises für r = 3 m und 0° < ϕ ≤ 30° gemessen, um für
unsere späteren Versuche mit virtuellen Phantomschallquellen „echte„ Impulsantworten zur Verfügung zu
haben (s. 2.4, Probleme der Methode). Auf diese Weise ergaben sich für den Brahmssaal eine Anzahl von
111 und für das Konzerthaus 162 Einzelmessungen.
Anschließend wurde der Frequenzgang des Messlautsprechers im reflexionsarmen Raum der HfM Detmold mit einem Messmikrofon Microtech Gefell MK 301 im Abstand von 1 m gemessen. Da der Messaufbau als eine Kopplung mehrerer LTI-Systeme angesehen werden kann, konnte der Frequenzgang des
Lautsprechers durch Invertierung aus den Ergebnissen herausgerechnet werden. Die dazu notwendigen
Berechnungen wurden ebenso wie die Messung im DOS-basierten Programm Monkey Forest durchgeführt.
2.2
Erfassung und Sortierung der Messdaten
Jede der auf diese Weise ermittelten Impulsantworten wurde so gekürzt, dass die Impulse aller Schalleinfallsrichtungen eines Saales phasengleich übereinander lagen. Damit konnte gewährleistet werden, dass
bei späterer Faltung zweier korrelierter Signale mit unterschiedlichen Impulsantworten keine Phasenprobleme und damit Kammfilter auftreten würden. Anschließend wurden alle Impulsantworten eines Saales
gemeinsam normalisiert, so dass alle Lautstärkeunterschiede erhalten blieben. Vor dem Hintergrund, dass
relative Laufzeiten und Pegel zwischen den Impulsantworten (neben dem Reflexionsmuster des Raumes) wichtige Informationen über den Abstand der Schallquelle enthalten, wurde jede Impulsantwort in
zweifacher Form aufbereitet:
20
– phasenrichtig und pegelrichtig (die Unterschiede in Laufzeit und Lautstärke wurden beibehalten)
sowie
– pegelrichtig (die Unterschiede der Lautstärke wurden beibehalten)
Die auf diese Weise generierten Impulsantworten wurden als Wave-Dateien in 24 Bit und 44,1 kHz (Stereo) gespeichert. Um eine einfache Sortierung zu ermöglichen, folgte die Benennung dem kopfbezogenen
Koordinatensystem nach [Blauert 1974] (s. 1.1, Binauraltechnik) in dem Schema ϕ_δ_r.wav, wobei ϕ
für den Seitenwinkel in der Horizontalebene, δ für den Elevationswinkel und r für die Entfernung der
Schallquelle (bzw. den Radius des gemessenen Halbkreises) steht.
2.3
Einbindung in die Digital Audio Workstation (DAW)
Im Vorfeld wurde in einem nicht repräsentativen ABX-Test unter Kommilitonen ermittelt, ob die
Verwendung von schneller – im Vergleich zu diskreter – Faltung hörbare Nachteile mit sich brächte,
d.h. die Ortung innerhalb der binauralen Synthese in irgendeiner Weise beeinträchtigte. Da keiner der
Testpersonen die beiden Verfahren unterscheiden konnte, wurde auf eine weitere Untersuchung verzichtet
und ab diesem Zeitpunkt mit schneller Faltung (fast convolution) gearbeitet. Dieses Ergebnis deckt sich
mit [Kulkarni und Colburn 1995, 1998] sowie mit [Hammershøi und Møller 2005].
Alle folgenden Versuche und Mischungen wurden in der DAW Sequoia von Magix durchgeführt. Die
Faltungen wurden mit Hilfe des dort integrierten „Raumsimulators„ berechnet. Parallel dazu wurde jedoch
in Zusammenarbeit mit dem Programmierer Christian Budde ein spezielles VST-Plugin zur Durchführung
der Berechnungen sowie der Verwaltung der Daten entwickelt, auf das im erwähnten Appendix näher
eingegangen werden soll.
Die Einbindung der Impulsantworten folgte dem in [Vorländer 2008] beschriebenen Schema eines
„binauralen Mischpultes„ (s. Abb. 18). Dabei wird jede Quelle - z.B. ein Stützmikrofonsignal - mit beiden
Kanälen der Impulsantwort gefaltet und die beiden Systemantworten werden (jeweils für das linke und
das rechte Ohr) addiert. Auf diese Weise resultiert aus jedem einkanaligen Eingangssignal ein binaurales
(zweikanaliges) Ausgangssignal. Da von vornherein lediglich mit LTI-Systemen gearbeitet wurde, gilt das
Superpositionsprinzip. Daher können diese binauralen Signale über das Audiomischpult der DAW wie bei
einer gewöhnlichen Mischung summiert werden.
Abbildung 18: Schema eines binauralen Mischpultes nach [Vorländer 2008]
Bei diesem Vorgehen bleiben für den Tonmeister alle Eingriffsmöglichkeiten in die Signalkette erhalten.
Dabei ist jedoch darauf Rücksicht zu nehmen, welche Vorgänge als LTI-Systeme beschreibbar sind, wenn
nicht in die Funktionsweise der binauralen Synthese bzw. ihre Realitätstreue eingegriffen werden soll.
Gerade bei der Verwendung echter Raumimpulsantworten, wie dies von uns vorgestellt wird, lässt sich
aus dieser Forderung Folgendes ableiten:
21
– Eingriffe, die linear und zeitinvariant sind, können sowohl vor als auch nach der Faltung mit BRIRs
durchgeführt werden, da bei der Verkettung von LTI-Systemen das Kommutativgesetz gilt. Dies
betrifft z.B. Pegel, Filter oder Faltungshall.
– Eingriffe, die entweder nicht linear oder nicht zeitinvariant sind, sollten im Normalfall vor der
Faltung mit BRIRs durchgeführt werden, sofern der Raum oder die HRTF nicht verfremdet oder
verändert werden sollen. Dies betrifft unter anderem Dynamikprozessoren, Hall auf der Basis von
zeitvarianten Algorithmen sowie bestimmte Effekte wie z.B. Phasing, Chorus oder Verzerrung.
Die Auswahl einer für die Faltung zu verwendenden BRIR ersetzt im Fall des binauralen Mischpultes
das gewöhnliche Panning. Im Appendix werden wir zeigen, dass es für einige konkrete Anwendungen
jedoch nützlich sein kann, nicht-binaurales Panning zur Vorverteilung auf mehrere, bestimmten binauralen
Richtungen zugewiesenen Busse zu verwenden.
Neben den üblichen Eingriffen in die Signalkette, die auch bei raumbezogenen Mischungen zur Anwendung kommen, hat der Tonmeister im Falle der binauralen Synthese über die Modifikation der Impulsantworten weitergehende Eingriffsmöglichkeiten wie z.B. die Verkürzung des Nachhalls oder die Verstärkung
und Absenkung der frühen Reflexionen oder des Direktschalls.
In einem nicht repräsentativen Vorversuch mit Kommilitonen wurden die Möglichkeiten miteinander
verglichen, die Hallfahne der binauralen Raumimpulsantworten durch eine nicht-binaurale zu ersetzen,
oder künstlich zweikanalig verhallte Signale mit binauralen Raumimpulsantworten ohne Hallfahne zu falten. Das deutliche Ergebnis war, dass ein solches zweikanaliges Hallprogramm ohne frühe Reflexionen in
beiden Fällen eingesetzt werden kann, vermutlich deshalb, weil die beiden Kanäle der Hallfahne im Normalfall so unkorreliert sind, dass sie eine Ortung des Originalsignales nicht beeinträchtigen. In letzterem
Fall wurde durch die Faltung mit der HRTF des Kunstkopfes lediglich eine Verfärbung der Hallfahne wahrgenommen. Die innewohnenden ästhetischen Möglichkeiten und Folgen eines solchen Vorgehens
sollten aber in einer weitergehenden Arbeit genauer untersucht werden.
Die Auswirkungen echter binauraler Reflexionsmuster und entsprechender Eingriffe in die Impulsantwort wurden, wie bereits erwähnt, in einem späteren Hörvergleich untersucht (s. Kapitel 3, Hörvergleich).
Nähere Zusammenhänge werden zudem im Kapitel 2.5 (Systemoptimierung) erläutert.
Zusammenfassend könnte man sagen, dass in der vorgestellten Methode zur Binauralisierung von
Mehrspurproduktionen Einzelquellen über die Platzierung virtueller Lautsprecher in einem bestimmten
zuvor gemessenen Saal binaural wiedergegeben und zusammengeführt werden. Aufgrund der Auswahl
bestimmter Lautsprecherpositionen wäre es also zutreffend, im Falle der BRIRs von „virtual panning
spots„ zu sprechen.
2.4
Probleme der Methode
Wie bereits erwähnt, entsprechen den einzelnen Quellen in Abb. 18 im Falle einer Musikaufnahme
klassischer Musik für gewöhnlich die einzelnen Mikrofonsignale.
Nehmen wir an, es läge eine Mehrspuraufnahme eines Orchesterkonzertes vor, die nachträglich binauralisiert werden soll. Anhand einzelner typischer Mikrofonsignale einer solchen hypothetischen Aufnahme
möchten wir gerne die folgenden Probleme veranschaulichen.
2.4.1
Eindimensional abgebildete Räume
In den meisten Fällen enthalten aufgenommene Mikrofonsignale auch Reflexionen oder den Nachhall
des Aufnahmeraumes. Anders als bei einer kopfbezogenen Aufnahme geht dabei jedoch die Information
über die Richtung der frühen Reflexionen verloren - sie werden also gewissermaßen „eindimensional„ abgebildet. Bei der Wiedergabe über einen virtuellen Lautsprecher, wie dies bei der vorgestellten Methode der
22
Fall ist, werden auch diese Signalanteile aus der Richtung des Messlautsprechers binaural wiedergegeben.
Diese eindimensionale Abbildung von Räumen ist bei einer raumbezogenen Mischung weniger störend,
da hier auch das Wiedergabesystem den Raum für gewöhnlich nicht vollständig dreidimensional abbildet.
Bei der vorgestellten binauralen Synthese jedoch stehen die (dreidimensional abgebildeten) Raumanteile
der BRIRs im Widerspruch zu den (eindimensional abgebildeten) Raumanteilen der Mikrofonsignale, was
die Realitätstreue deutlich verringert. Dies betrifft - aufgrund ihrer deutlichen räumlichen Verteilung in
wirklichen Umgebungen - vor allem die frühen Reflexionen.
Betrachten wir im erwähnten Beispiel einer Orchesteraufnahme z.B. die Stützmikrofone der Streicher,
die von vielen Tonmeistern so positioniert werden, dass die ganze Gruppe flächig abgebildet wird und
keine Einzelspieler zu hören sind. Findet die Aufnahme in einem halligen Konzertsaal oder einer Kirche
statt, ist in den Ausgangssignalen dieser Mikrofone erfahrungsgemäß ein starker Raumanteil zu finden.
Dieser Raumanteil würde eine realitätsnahe Simulation der Streichergruppe deutlich erschweren.
Aus diesem Zusammenhang lässt sich also ableiten, dass die Binauralisierung einer Mehrspuraufnahme
umso besser gelingen wird, je trockener die Einzelsignale vorliegen.
Zum Problem des Übersprechens siehe auch 2.4.3 und 5.2.4.
2.4.2
Künstlerische Inkompatibilität von Aufnahmeraum und gemessenem Raum
Der vorgestellten Methode liegt die Annahme zugrunde, dass die binauralen Reflexionsmuster echter Räume die Qualität und Realitätstreue der Simulation verbessern. In vielen Fällen können diese
Eigenschaften des Messraumes aber auf ästhetisch unbefriedigende Weise mit den Eigenschaften des Aufnahmeraumes zusammenwirken (vgl. 2.4.1).
Obwohl der Tonmeister durch Hallprogramme oder Eingriffe in die Impulsantwort den Raumeindruck
grundsätzlich an das musikalische Programm anpassen kann, sollte im Idealfall aus diesem Grund eine
Reihe von unterschiedlichen Messräumen in einer Datenbank zur Verfügung stehen. Auch die nähere
Betrachtung und Benennung solcher Kompatibilitätsprobleme und die Untersuchung ihrer Auswirkung
wäre Aufgabe einer weiteren Arbeit.
2.4.3
Zusammenfallen des Raumes durch Spiegelung der gemessenen Impulsantworten
Da in der vorgestellten Methode lediglich virtuelle Lautsprecher in einer binauralen Simulation positioniert werden, kann es zwischen diesen Lautsprechern bei entsprechender Korrelation der Signale auch
zu - in doppeltem Sinne „virtuellen„ - Phantomschallquellen kommen. Dies ist bei der Platzierung von
Stereosystemen (AB, ORTF, XY, usw.) natürlich von besonderer Bedeutung. Wird eine solche Lautsprecherbasis symmetrisch um die Medianebene gesetzt, z.B. ϕLautsprecher1 = 30° und ϕLautsprecher2 =
-30° in der Horizontalebene, so werden aufgrund der unter 2.1 beschriebenen Ermittlung der zweiten
Impulsantwort durch Spiegelung der ersten bei der Wiedergabe über die virtuelle Basis alle im zweikanaligen Eingangssignal enthaltenen Monoanteile tatsächlich monofiziert wiedergegeben, d.h. selbst der
Raum mit seinem binauralen Reflexionsmuster wird für diese Signalanteile mono. Im Extremfall einer
doppelten Platzierung desselben Signals über zwei derartig angeordnete Lautsprecher (also einer simulierten Monowiedergabe) ergibt sich dementsprechend ein perfektes Monosignal. Da in diesem Fall nicht
einmal der Raum interaurale Zeit- oder Pegelunterschiede hervorruft, fällt die komplette Simulation in
sich zusammen, und die Färbungen der Kunstkopf-HRTFs werden bei gleichzeitiger In-Kopf-Lokalisation
hörbar.
Betrachten wir also in unserem Beispiel einer Orchesteraufnahme die Flöten und die Oboen, die
bei einer traditionellen Aufstellung links und rechts der Mittelachse sitzen. Aufgrund des Übersprechens
zwischen den beiden Stützmikrofonen erscheinen die innen sitzenden Flöte 1 und Oboe 1 bei gewöhnlichen
raumbezogenen Mischungen oftmals als Phantomschallquellen innerhalb der gewählten Pan-Positionen.
Werden diese Positionen nun binaural simuliert, um die beiden Instrumentengruppen in der Simulation
zu platzieren, so werden bei korrelierten Signalanteilen die oben beschriebenen Effekte hervorgerufen. Die
Simulation klingt demnach verfärbt, und es kommt zu partieller In-Kopf-Lokalisation.
23
2.4.4
Fehlen eines Headtracking-Systems
Wie schon im Kapitel 1.1 (Binauraltechnik) beschrieben, kann die Verwendung eines HeadtrackingSystems die Häufigkeit von Vorne-Hinten-Vertauschungen verringern und zudem die binaurale Simulation
deutlich verbessern. Die von uns vorgestellte Methode soll jedoch zunächst ein System zur Erstellung von
Zweispurmischungen sein, die von jedem Konsumenten ohne Mehraufwand mit Kopfhörern abgehört werden können. Daher ist ein Headtracking-System von uns zunächst nicht integriert. Nach [Torres et al.
2004] könnte durch Interpolation der Impulsantworten auch auf der Verwendung von echten BRIRs beharrt werden, ohne auf algorithmisch ermittelte Impulsantworten zurückgreifen zu müssen. Dies ist in
dem erwähnten, im Rahmen dieser Arbeit entwickelten VST-Plugin bereits der Fall (s. 5., Appendix).
Nach [Rychtarikova et al. 2009] können auch mit Hilfe einer entsprechenden Raumsimulationssoftware
synthetisch generierte BRIRs zu befriedigenden Ergebnissen führen. Da solche Berechnungen beim heutigen Stand der Technik aber länger als die für Headtracking-Systeme annehmbare Latenz von 35 ms
dauerten (s. 1.1, Binauraltechnik), müsste auch in diesem Fall auf eine Datenbank mit einer bestimmten
Anzahl an BRIRs zurückgegriffen werden.
Da es für den Tonmeister in vielen Fällen wünschenswert sein kann, aus künstlerischen Gründen
Eingriffe auch nach Durchführung der Faltungen vorzunehmen (etwa eine nachträgliche Verhallung der
Gesamtmischung), wäre eine solche Implementierung aber nicht unproblematisch. Es müsste also entweder einem – speziell auf die jeweilige Mischung ausgerichteten – Wiedergabesystem eine Reihe von
umfangreichen Metadaten zur Verfügung gestellt, oder das Headtracking-System schon innerhalb der
DAW – und damit in die Mischung selbst – eingebunden werden.
Die Möglichkeiten einer solchen Implementierung zu untersuchen oder sogar ein plattformübergreifendes System für unterschiedliche Mischungen zu entwickeln, wäre sicherlich Aufgabe einer weiterführenden
Arbeit.
2.4.5
Vernachlässigung spezifischer Richtcharakteristiken der Schallquellen
Beinahe jede natürliche Schallquelle - wie z.B. ein Musikinstrument - hat eine komplexe, frequenzabhängige Abstrahlcharakteristik. Hierbei ist Jürgen Meyer die wesentliche systematische Erforschung des
charakteristischen Abstrahlverhaltens unterschiedlicher Musikinstrumente zu verdanken [Meyer 1999].
Jedes Stützmikrofon nimmt dabei selektiv das Signal an einem bestimmten Ort in der Nähe des jeweiligen Instrumentes auf – das aufgenommene Signal enthält also keinerlei Information mehr über das
ursprüngliche Abstrahlverhalten des Instrumentes. Dieses Problem besteht natürlich auch bei Mischungen für raumbezogene Verfahren und wird vom Tonmeister im Allgemeinen dadurch kompensiert, dass er
schon bei der Aufstellung der Stützmikrofone darauf achtet, das jeweilige Instrument in allen Frequenzbereichen gut abbilden zu können. Wie darzustellen sein wird, hat im Falle der nachträglichen Binauralisierung diese erste Vernachlässigung des instrumentenspezifischen Abstrahlverhaltens unter Umständen
jedoch weit reichendere Folgen.
Wie bereits erwähnt, wurden die Messungen zur Gewinnung der binauralen Raumimpulsantworten mit
einem Studiolautsprecher Geithain RL901K durchgeführt. Auch dieser Lautsprecher hat natürlich eine
bestimmte Richtcharakteristik, in diesem Falle eine auch im Bassbereich ausgeprägte Nierencharakteristik,
die zu hohen Frequenzen hin stark nach vorn bündelt. Wird das Signal des Stützmikrofons nun binaural
über diesen virtuellen Lautsprecher wiedergegeben (wie es bei der vorgestellten Methode der Fall ist), so
kommt ausschließlich die Richtcharakteristik des Lautsprechers zur Geltung. Anders ausgedrückt erhalten
hierbei alle abgebildeten Schallquellen die Richtcharakteristik des Messlautsprechers. An dieser Stelle wird
das Abstrahlverhalten des jeweiligen Instrumentes also zum zweiten Mal vernachlässigt.
Der zuvor in Kauf genommene klangliche Kompromiss bei der Aufstellung des Stützmikrofons führt
nun dazu, dass nicht nur der Höreindruck entsteht, das aufgenommene Instrument strahle mit der Richtcharakterstik des Messlautsprechers ab, sondern dass in der binauralen Simulation sogar nur das zuvor an
einem bestimmten Ort um das Instrument vorhandene Signal mit der Richtcharakteristik des Messlautsprechers abgestrahlt wird. Wir vermuten, dass die in Vorversuchen von Kommilitonen mehrfach geäußerte Irritation über die „unnatürliche Kleinheit„ der Schallquellen auf diesen gewissermaßen doppelten
24
Fehler zurückzuführen ist, der besonders auffällt, da im Falle einer binauralen Mischung von den Hörern
unserer Erfahrung nach deutlich höhere Anforderungen in Bezug auf die Realitätstreue gestellt werden,
als dies bei raumbezogenen Mischungen der Fall wäre. Inwieweit hier ein tatsächlicher Zusammenhang
besteht, müsste aber in einer weitergehenden Arbeit untersucht werden.
Betrachten wir zur Veranschaulichung die Hornstütze in erwähnter Orchesteraufnahme. Das Horn
strahlt zu höheren Frequenzen hin bevorzugt nach hinten in Richtung des Schalltrichters ab. Durch
die Richtcharakteristik des Messlautsprechers würde dieses Signal in der binauralen Simulation bevorzugt nach vorne in Richtung des Hörers abgestrahlt werden. Dies könnte zu mehreren Problemen führen:
Selbst wenn die Hornstütze in einem virtuellen Bühnenraum platziert würde, fehlten die für das Horn charakteristischen Rückwürfe der Bühnenrückwand. Die Verwendung eines einzelnen Stützmikrofons führte
des weiteren vermutlich zu einer klanglichen Verkleinerung der Horngruppe. Dies wäre besonders folgenschwer, da es eine deutliche, nachvollziehbare binaurale Positionierung dieses Signals im gesamten
Orchesterklang wesentlich erschwerte.
Um das instrumentenspezifische Abstrahlverhalten angemessen binaural modellieren zu können, wären Impulsantworten erforderlich, die sich aus mehrkanaligen Anregungssignalen zusammensetzen. Anstelle eines einzelnen Lautsprechers müsste man den Raum beispielsweise mit Hilfe eines DodekaederMesslautsprechers anregen, wobei die Anregung über alle 12 Flächen einzeln nacheinander zu erfolgen
hätte. Die Summe aller 12 Einzelimpulsantworten entspräche dann einer näherungsweisen Kugelcharakteristik der Quelle. Aus diesen Einzelimpulsantworten ließe sich daraufhin durch Gewichtung und
Filterung unter Berücksichtigung der Abstrahlcharakteristik des gewünschten Instruments eine diesbezüglich weitaus realistischere Impulsantwort zusammensetzen. Für die Modellierung von Schallquellen
mit komplexer Richtcharakteristik für Auralisationsverfahren sei darüber hinaus auf [Vorländer 2008]
verwiesen.
Bei einer Binauralisierung in der vorgestellten Form treten zu den Problemen der Methode natürlich die unter 1.1.4 gelisteten systembedingten Probleme hinzu, so dass alle Versuche einer möglichen
Systemoptimierung an beiden Stellen eingreifen können.
25
2.5
Systemoptimierung
Das folgende Kapitel beschreibt Möglichkeiten zur Optimierung der zuvor geschilderten Probleme,
die sich bei der Arbeit mit binauralen Impulsantworten ergeben. Bei den hier aufgezeigten Vorgehensweisen handelt es sich zunächst allerdings um rein hypothetische Vorschläge von Methoden, mit deren
Hilfe sich die Wirkung binauraler Raumimpulsantworten diesbezüglich positiv beeinflussen lässt. Das
Hauptaugenmerk richtet sich dabei auf eine verbesserte Vorne-/Hinten-Lokalisation sowie eine ebenfalls
anzustrebende, verbesserte Außer-Kopf-Lokalisation. Der Hörvergleich, der im Rahmen dieser Arbeit
durchgeführt wurde und im Anschluss an dieses Kapitel beschrieben wird, verfolgte als ein maßgebliches
Ziel, einige dieser Möglichkeiten empirisch auf ihre Wirksamkeit hin zu überprüfen.
2.5.1
Spreizung
Das Phänomen der Spreizung (s. 1.1.4, Systembedingte Probleme), wie es bei nahezu allen Hörern in
mehr oder weniger starkem Maße auftritt, rückt im Hinblick auf das praktische Ergebnis einer Musikmischung nicht so gravierend in den Vordergrund, wie man es zunächst annehmen könnte.
Der Grund hierfür liegt in der Vorgehensweise bei der Musikmischung selbst, die sich in der Praxis in
erster Linie nach dem tatsächlichen klanglichen Ergebnis richtet. Da Schallquellen in der Horizontalebene
außerhalb der 0° bzw. 180° Richtung der Tendenz nach von fast allen Hörern zu weit seitlich, also hin
zur 90°-Richtung verschoben, wahrgenommen werden, kann davon ausgegangen werden, dass auch die
am Mischvorgang beteiligten Personen in der Regel diesem Phänomen entweder unbewusst oder bewusst
dadurch gegensteuern werden, dass sie für einen bestimmten Winkel die klanglich, d.h. ortungsmäßig
korrekte Impulsantwort der tatsächlich gemessenen vorziehen werden.
In einem Plugin wäre es selbstverständlich ohne weiteres möglich, dieses Problem unmittelbar auszugleichen, indem die Zuordnung der gewünschten Richtungen direkt zu den klanglich entsprechenden
Impulsantworten erfolgt anstatt zu den tatsächlich unter dem jeweiligen Winkel gemessenen. Hierfür
müsste allerdings in einem weiteren empirischen Hörversuch eine Art mittlere Korrekturfunktion ermittelt werden, mit deren Hilfe der Spreizungsfehler für möglichst viele Hörer auf ein akzeptables Maß
reduziert würde. Hierauf soll in dieser Arbeit jedoch nicht weiter eingegangen werden.
Eine andere Methode, diesem Problem zu begegnen, wird von [Lee et al. 2003] vorgeschlagen. Mit
Hilfe einer „Directional-Weighting Function“, die bewirkt, dass Signale im vorderen Bereich mehr Energie
erhalten, wird versucht, das sogenannte „Loch in der Mitte“ auszufüllen.
2.5.2
Modifikation der Impulsantworten
Blauertsche Bänder
Wie bereits unter Kapitel 1.1.1 (Natürliche Richtungswahrnehmung) beschrieben, ist es für das menschliche Gehör besonders schwierig zu entscheiden, ob ein Stimulus von vorne oder hinten erklingt, da für
dieses Kriterium weder eine Laufzeit- noch eine Pegeldifferenz zwischen den beiden Ohren zu Rate gezogen
werden kann.
Nach Untersuchungen, die Blauert in den Jahren 1968 bis 1970 durchführte, existieren bestimmte,
definierte Frequenzbereiche, die maßgeblich Verantwortung dafür tragen, ob ein Stimulus von vorn oder
von hinten wahrgenommen wird [vgl. Blauert 1974]. Dies sind die sogenannten „richtungsbestimmenden
Bänder“ oder „Blauertschen Bänder“ (vgl. Kapitel 1.1.1, Natürliche Richtungswahrnehmung). In Hörversuchen untersuchte Blauert an mehreren Probanden mit Hilfe von isoliert über Lautsprecher vorgespielten
schmalbandigen Rauschsignalen den spontanen Richtungseindruck der Hörer. Dabei stellte sich heraus,
dass bestimmte Signale in Abhängigkeit von ihrer Mittenfrequenz spontan bevorzugt eher von vorne oder
eher von hinten geortet wurden. Die folgende Grafik zeigt die statistische relative Häufigkeit, mit welcher die Testpersonen im Versuch dem Schallereignis einer jeweiligen Frequenz eine bestimmte Richtung
zuwiesen.
Denkbar wäre also zu versuchen, binaurale Raumimpulsantworten in Bezug auf die Vorne-/Hinten26
Abbildung 19: Blauertsche Bänder: Häufigkeitsverteilung aus [Blauert 1974]
Ortbarkeit mit Hilfe der Blauertschen Bänder zu optimieren. Hierbei wäre es eine Möglichkeit, mittels
eines Equalizers bei Signalen, die mit einer Impulsantwort für den vorderen Bereich gefaltet wurden, die
entsprechenden Blauertschen Bänder anzuheben oder abzusenken.
Binaurale Signale, deren Tendenz nach vorne oder hinten zuvor schwierig zu unterscheiden war, sollten
somit deutlicher ortbar werden. Obige Grafik zeigt lediglich die Häufigkeit, mit der verschiedene Hörer ein
Terzband-Rauschen einer entsprechenden Mittenfrequenz spontan „vorne“ oder „hinten“ orteten. Damit
sagt die Kurve noch nichts über die optimale Mittenfrequenz und Güte eines zu applizierenden Filters
aus. Blauert zeigte jedoch in einem weiteren Versuch [ebd.], dass die richtungsbestimmenden Bänder
sehr wohl mit den charakteristischen Frequenzgang-Eigenschaften der Außenohr-Übertragungsfunktion
korrespondieren.
Für den Entwurf eines Filters kann der Verlauf dieser Kurven damit zumindest einen ersten guten Anhaltspunkt geben. Eine Filtereinstellung zu finden, die die entsprechende binaurale Raumimpulsantwort
auf ihre Vorne-/Hinten-Lokalisierbarkeit hin optimal unterstützt, würde weitere, umfangreiche Hörversuche erfordern, für die im Rahmen dieser Arbeit jedoch kein Platz sein konnte.
Direktsignal-/Reflexionsanteil
Wie jede Raumimpulsantwort setzt sich auch eine BRIR in ihrem zeitlichen Verlauf aus drei wesentlichen Komponenten zusammen:
1. Direktsignal: Der erste Impuls repräsentiert das von den Eigenschaften des Raumes vollkommen unabhängige, trockene Schallereignis. Damit stellt er die eigentliche HRTF dar. Als isolierter Impuls
enthält das Direktsignal interaurale Laufzeit- und Pegeldifferenzen sowie die außenohrspezifischen
Frequenzgänge.
Faltet man ein beliebiges Signal mit diesem separaten Impuls, so erhält es eine binaurale Richtungsinformation. Es entspräche damit theoretisch einem im Freifeld unter derselben Richtung
wiedergegebenen Signal.
2. Frühe Reflexionen: Der entscheidende Raumeindruck entsteht durch die ersten Rückwürfe von den
Wänden. Ihr Abstand zum Direktsignal, ihre zeitliche Dichte und Struktur sowie ihre Klangfarbe
entscheiden über die empfundene Charakteristik eines Raumes. In binauralen Raumimpulsantworten sind auch diese frühen Reflexionen ihrer jeweiligen Einfallsrichtung entsprechend festgehalten.
Zu den frühen Reflexionen rechnet man im Allgemeinen diejenigen Reflexionen, die beim Hörer
innerhalb der ersten ca. 60-100 ms eintreffen.
3. Nachhall: mit zunehmender Dichte gehen die frühen Reflexionen allmählich in den Nachhall über.
Die Länge des Nachhalls und seine Klangfarbe geben ebenfalls einen Anhaltspunkt über die Größe
des Raumes und die Beschaffenheit seiner Wandflächen.
Der diffuse Nachhall ist jedoch rein statistischer Natur. Für die Ohren liefert er lediglich vergleichsweise unkorrelierte Signale ohne Richtungsinformation. Auf die Ortbarkeit eines Schallereignisses
27
übt er somit keinen Einfluss aus.
Abbildung 20: Prinzipieller Aufbau einer Raumimpulsantwort
Eingangs wurde die Vermutung geäußert, dass die Ortbarkeit und die Natürlichkeit binauraler Signale
durch das Vorhandensein eines realen Reflexionsmusters in hohem Maße begünstigt werden. Nun ist es
möglich, die binauralen Raumimpulsantworten mit Hilfe einer Hüllkurvenfunktion derart zu verändern,
dass der Anteil der frühen Reflexionen gegenüber dem Direktschall zusätzlich erhöht oder abgesenkt wird.
Interessant wäre dabei herauszufinden, ob sich durch eine derartige Manipulation der Impulsantwort
zusätzlich eine Verbesserung der Ortbarkeit erzielen ließe.
Anders ausgedrückt stellt sich damit die Frage nach dem optimalen Pegelverhältnis zwischen Direktschall und frühen Reflexionen.
2.5.3
Ersetzen von Einzelschallquellen durch Phantomschallquellen
Speziell bei der Verwendung der 0° bzw. 180°-Impulsantworten erweist sich eine klare Außer-KopfOrtung als besonderes Problem. An dieser Stelle wäre zu überlegen, ob es eine Möglichkeit gibt, mit
welcher sich die Verwendung solcher Impulsantworten gezielt umgehen lässt, dabei Schallquellen aber
dennoch an ebendiesen Positionen lokalisierbar gemacht werden können.
Eine interessante Option stellt hier die Verwendung von Phantomschallquellen dar. Mittels einer
virtuellen Stereobasis werden alle Einzelschallquellen, die aus diesen kritischen Richtungen abgebildet
werden sollen, als Phantomquellen zwischen einer virtuellen Lautsprecherbasis realisiert. Diese Basis wird
jeweils durch ein Paar von Impulsantworten gebildet, die an sich aufgrund der weiter außen liegenden
Positionen eine wesentlich bessere Lokalisierbarkeit gewährleisten (ϕ=+/-30° bzw. ϕ=+/-150°, vgl. 3.2.1).
Um eine Schallquelle zu erhalten, die aus der 0°-Richtung wahrgenommen wird, wird das Signal also jeweils
mit gleichem Pegel auf die beiden Kanäle für ϕ=+30° und ϕ=-30° gegeben.
2.5.4
Resampling von Impulsantworten
Wie schon unter Kapitel 2.4.3 dargestellt, kommt es aufgrund der gespiegelten BRIRs bei der Wiedergabe zweier Signale über eine virtuelle Stereobasis zu einer perfekten Mono-Wiedergabe der korrelierten
Signalanteile. Dies ist bei der vorgeschlagenen Verwendung von virtuellen Phantomschallquellen natürlich
von besonderer Bedeutung. Es lässt sich also die Forderung stellen, dass die für eine virtuelle Stereobasis
eingesetzten Impulsantworten untereinander ein gewisses Maß an Dekorrelation aufweisen müssen, die der
vergleichbaren Situation in einem natürlichen Raum entspricht. Soll zur Reduzierung des Messaufwands
die Methode der Spiegelung beibehalten werden, empfiehlt sich ein weiterer Eingriff in die gespiegelte
BRIR, um dieses Ziel zu erreichen:
28
Eine der beiden Impulsantworten wird mittels Resampling in ihrer Abspielgeschwindigkeit minimal
herauf- oder herabgesetzt. Bei dieser leichten Variation, die sich in einer Größenordnung von etwa 1%
abspielt, sind für die Einzelsignale keine klanglichen Abstriche zu befürchten; lediglich die Filterfrequenzgänge der HRTFs verschieben sich dadurch minimal. Damit bleibt das Ergebnis in seinem Frequenzgang
im Wesentlichen unberührt. Erst recht wirkt sich dieser Eingriff keinesfalls auf die Tonhöhe des Ausgangssignals aus, da dieses im Zuge der Faltung nach wie vor lediglich lineare Verzerrungen erfährt.
Das Resampling gegenüberliegender Impulsantworten bringt für Phantomschallquellen gleich zwei
positive Effekte mit sich: Zum einen wird damit die notwendige leichte Dekorrelation bewirkt, ohne dass
eine weitere Impulsantwort gemessen werden müsste, zum anderen handelt es sich gleichzeitig dennoch
– auf Grund der Spiegelung – um das in Bezug auf die Mikrostruktur des Reflexionsmusters „perfekte“
Gegenstück zu der ursprünglichen Impulsantwort.
In verschiedenen Vorversuchen zeigte sich, dass bei der Erzeugung virtueller Phantomschallquellen
die Methode des Impulsantwort-Resamplings einem real gemessenen Impulsantwort-Paar keinesfalls unterlegen ist. Vielmehr wurde erstere mehrfach als die klanglich bessere Variante empfunden. Aus diesem
Grunde wird im Folgenden bei allen Versuchen, in denen virtuelle Phantomschallquellen zum Einsatz
kommen, ausschließlich diese soeben beschriebene Methode Anwendung finden.
2.5.5
Bewegte Schallquellen
Bereits mehrfach wurde erwähnt, dass bei der Lokalisation von Schallquellen, insbesondere bei der
Unterscheidung zwischen vorne und hinten, leichte Kopfbewegungen unbewusst zu Rate gezogen werden.
Das menschliche Gehirn ist dabei in der Lage, aus der leichten relativen Positionsänderung der Schallquelle
zusätzliche Richtungsinformationen zu gewinnen.
Anstatt mit Hilfe eines Headtrackers relative Positionsänderungen bezüglich des Kopfes zu bewirken,
könnte man umgekehrt auch unabhängig von der Kopfposition versuchen, mittels einer permanent aufmodulierten, leichten Bewegung der Schallquelle diesen Effekt ein wenig nachzuahmen. Eine Schallquelle,
die sich beispielsweise vor dem Hörer befinden soll, wäre also nicht ständig an ein und derselben Position,
sondern würde sich permanent minimal links und rechts um ihr Zentrum herum bewegen.
Möglicherweise bietet eine unmerklich aktiv bewegte Schallquelle dem Gehirn dennoch einen kleinen,
unterbewussten Anhaltspunkt, um eine höhere Sicherheit über die intendierte Position der Schallquelle
zu erhalten.
29
3
3.1
Hörvergleich
Versuchs-Design
Ein wesentlicher Bestandteil dieser Arbeit war die Durchführung eines Hörvergleichs. Dieser verfolgte in erster Linie zwei Ziele: Zum einen sollten die verschiedenen Möglichkeiten der ImpulsantwortOptimierung auf ihre Wirksamkeit hin überprüft, und zum anderen eine Annäherung an ästhetische
Fragestellungen ermöglicht werden, die sich aus der Verwendung binauraler Raumimpulsantworten in
Mehrspurmischungen ergeben.
Durchführungsmethoden
Der Hörvergleich wurde auf zwei Arten durchgeführt. Für eine erste Befragung standen etwa 30
Probanden zur Verfügung. Diese Befragung erfolgte vor Ort im Erich-Thienhaus-Institut unter möglichst
kontrollierten Bedingungen. Als Kopfhörer für die Wiedergabe der binauralen Signale diente bei allen
Probanden einheitlich das Modell K-601 des Herstellers AKG. Es wurde darauf geachtet, dass sich die
Hörer während des Tests ungestört in einem ruhigen Raum aufhalten konnten. Die Hörbeispiele wurden
von CD abgespielt, und die Antworten waren handschriftlich auf einem Fragebogen einzutragen.
Generell wurde den Hörern geraten, ihre Angaben möglichst rasch, ohne langes Zögern vorzunehmen.
Dennoch war es jederzeit gestattet, ein Hörbeispiel mehrmals zu hören. Es wurde jedoch auch nicht
zwingend gefordert, jedes Beispiel bis zum Ende anzuhören. Den Hörern war es erlaubt, am CD-Player
jederzeit selbst die Track-Auswahl vorzunehmen.
Der zweite Durchgang des Hörvergleichs erfolgte in Form einer Online-Umfrage. Die Möglichkeit, über
Internet eine weitere Testhörerschaft zu erreichen, bot sich an, da zur Durchführung des Versuchs außer
einem hochwertigen Kopfhörer und einer handelsüblichen PC-Audiokarte keinerlei spezielles Equipment
benötigt wurde. Für die Online-Befragung erfolgte die Programmierung der gesamten Testanordnung
auf vier Internet-Seiten. Sämtliche Audiobeispiele wurden zu diesem Zweck in mp3-Format mit einer
Datenrate von 320 kbps konvertiert. Die Wiedergabe erfolgte mittels Flashplayer-Komponenten, und alle
Angaben waren über Java-basierte Bedienelemente vorzunehmen.
Abschnitt
Gegenstand der Untersuchung
Anzahl der Hörbeispiele
1
Vergleich: trockene HRTF vs. BRIR mit
natürlichem Reflexionsmuster
15
2
Variation des Pegelverhältnisses zwischen
Direktsignal und frühen Reflexionen
15
3
Untersuchung der Wirksamkeit weiterer
Alternativen zur Optimierung der
Vorne-/Hinten-Ortung
16 (=8 je doppelt)
4
subjektive Beurteilung von
Musikmischungen
2 Mischungspaare:
A: Chor a capella
B: Popmusik
Tabelle 1: Aufbau des durchgeführten Hörvergleichs
Testgliederung
Der Hörversuch gliederte sich in insgesamt vier Abschnitte, in denen jeweils unterschiedliche Aspekte
empirisch untersucht wurden. Die ersten drei Abschnitte befassten sich mit den Auswirkungen der verschiedenen Bearbeitungsmöglichkeiten für Impulsantworten in Bezug auf die Ortbarkeit der Signale. Der
vierte Abschnitt sollte eine Annäherung an die ästhetische Wirkung binaural gemischter Musikaufnahmen
wagen, indem konkret subjektive Geschmacksurteile der Testpersonen erfragt wurden.
Tabelle 1 gibt eine Übersicht über den groben Aufbau des Hörversuchs. Die einzelnen Abschnitte
werden weiter unten ausführlich erläutert.
30
Zufallsvariablen
Um eine möglichst hohe Verlässlichkeit der Ergebnisse zu erreichen, war es notwendig, innere Einflüsse der Testanordnung, wie sie sich eventuell aus der Reihenfolge der Hörbeispiele oder auch aus dem
verwendeten Audiomaterial ergeben könnten, möglichst von vornherein zu minimieren. Zu diesem Zweck
wurde der Test in drei verschiedenen Varianten (A, B und C) erstellt. Für jede Test-Variante wurde die
Reihenfolge der Beispiele innerhalb eines jeden Abschnitts zufällig verteilt.
Darüber hinaus wurden die insgesamt drei zur Verfügung stehenden Klangbeispiele, aus dem die Hörbeispiele für die Abschnitte 1-3 jeweils erzeugt wurden, innerhalb der Varianten A, B und C permutiert,
so dass alle Testabschnitte letztlich mit jedem der drei Audiosignale in einer der drei Test-Varianten
vorlagen. Die Zuweisung der Varianten zu den einzelnen Testpersonen erfolgte schlussendlich bei der
Durchführung per Zufall.
Audiomaterial
Als Basismaterial für die Abschnitte 1-3 standen drei verschiedene Klangbeispiele zur Verfügung, mit
Hilfe derer die binauralen Hörbeispiele erzeugt wurden. Jedem Abschnitt lag stets eines der drei Beispiele,
deren Länge sich jeweils auf etwa 20 Sekunden belief, zu Grunde.
Bei der Auswahl der Beispiele stand vor allem der Aspekt im Vordergrund, mit Hilfe weniger Hörproben ein möglichst vielfältiges Spektrum an Signalen abzudecken, dabei aber dennoch Klänge zu präsentieren, mit denen die Hörer aus dem täglichen Leben und dem Umgang mit gängiger Musik vertraut
waren. Zu diesem Zweck wurden folgende Signale aufgenommen:
1. Sprecherin
2. Akustik-Gitarre
3. Saxophon
Die Sprachaufnahme erfolgte ebenso wie die Saxophonaufnahme in einer reflexionsarmen StudioUmgebung. Im Falle der Gitarre lieferte ein piezoelektrischer Tonabnehmer das erforderliche trockene
Signal.
Im Folgenden sollen nun die untersuchten Fragestellungen der einzelnen Abschnitte sowie die Aufbereitung der dazugehörigen Hörbeispiele näher erläutert werden.
3.1.1
Testabschnitt 1
Der erste Abschnitt hatte zum Ziel, die fundamentale Annahme zu verifizieren, dass die Verwendung
„echter“ BRIRs, die insbesondere ein räumlich abgebildetes Reflexionsmuster beinhalten, verglichen mit
der Verwendung trockener HRTFs einen klaren Vorteil in Bezug auf die Sicherheit der Ortung bewirkt.
Darüber hinaus sollte überprüft werden, inwieweit ein solcher Vorteil möglicherweise lediglich auf
das bloße „Vorhandensein“ der Reflexionen zurückzuführen ist oder ob der entscheidende Unterschied
tatsächlich in deren richtungsmäßig korrekter, binauraler Abbildung zu finden ist. Um dies zu untersuchen,
wurden weitere Signale in den Test mit einbezogen, bei denen die trockene HRTF mit einem nachträglich
auralisierten Reflexionsmuster kombiniert wurde.
Folgende drei Auralisationsmuster wurden in Abschnitt 1 verglichen:
1. trockene HRTF
2. HRTF mit echtem binauralen Reflexionsmuster
3. HRTF mit nachträglich auralisiertem Reflexionsmuster
31
Frage-Strategie
Um zu einem geeigneten Versuchs-Design zu gelangen, musste zunächst ein Konzept gefunden werden,
um von den Testhörern Informationen darüber zu erhalten, mit welcher Sicherheit sie in der Lage sein
würden, einem Stimulus seine Richtung zuzuordnen. Eine erste Möglichkeit wäre daher, die Person direkt
daraufhin zu befragen, wie sicher sie glaubt, dem Hörereignis eine Richtung zuweisen zu können. Dies
wäre jedoch ein rein subjektives Kriterium und sagte noch nichts darüber aus, ob die wahrgenommene
Richtung der Stimuli auch mit der intendierten Richtung übereinstimmte.
Wesentlich aussagekräftiger wäre es dagegen, statistisch zu ermitteln, wie hoch die „Treffsicherheit“
bei der Zuordnung von Stimuli zu bestimmten, intendierten Richtungen sei und in welchem Maße sie
variierte, je nachdem, welches der drei Auralisationsmuster verwendet wurde.
Dies ließe sich dadurch erreichen, dass man jeder Testperson mehrere nach dem gleichen Muster
auralisierte Signale aus verschiedenen Richtungen vorspielte. Für jedes Signal müsste die Person die
wahrgenommene Richtung angeben. Durch den Vergleich der intendierten Richtungen mit den jeweils
wahrgenommenen ließe sich sowohl die individuelle Treffsicherheit eines Hörers ermitteln als auch – längsschnittlich betrachtet – die Treffsicherheit aller Testpersonen für einen bestimmten Winkel.
Da es allein schon wegen des zeitlichen Umfangs eines solchen Tests nicht ohne Weiteres möglich wäre,
den Hörern systematisch Signale aus allen erdenklichen Richtungen vorzuspielen, war es in unserem Fall
erforderlich, die Auswahl auf wenige, repräsentative Richtungen in der Horizontalebene zu beschränken.
Sinnvoll erschien es uns, Hörbeispiele für die Richtungen ϕ = 0°, 30°, 60°, 130° und 180° zu erstellen,
und dies jeweils unter Verwendung der drei verschiedenen Auralisationsmuster. Den Hörern war dabei
selbstverständlich nicht bekannt, dass es sich nur um eine begrenzte Auswahl an Richtungen handelte. Sie hatten lediglich die wahrgenommene Richtung des Stimulus durch eine Markierung auf einem
geschlossenen Kreis zu kennzeichnen.
Neben der wahrgenommenen Richtung wurden die Hörer bei jedem Beispiel darum gebeten, noch
zwei weitere Angaben zu machen. Auf je einer vierstufigen Skala sollte zum einen eine Angabe über die
subjektive Sicherheit der Quellenlokalisation gemacht werden („sehr unsicher“ bis „sehr sicher“) und zum
anderen eine Angabe über die empfundene klangliche Natürlichkeit der Quelle („sehr unnatürlich“ bis
„sehr natürlich“).
Die Frage nach der subjektiven Sicherheit sollte einen zusätzlichen Anhaltspunkt bei der Ermittlung
der tatsächlichen Treffsicherheit bieten. Die Angabe zur Natürlichkeit dagegen sollte ein Urteil über die
klangliche Akzeptanz einholen, um damit – nicht zuletzt im Hinblick auf eventuelle ästhetische Fragen –
Aussagen zu ermöglichen.
Die folgende Abbildung zeigt einen Ausschnitt des Fragebogens für Abschnitt 1 aus der Onlinebefragung (links) und der Einzelbefragung (rechts).
Erstellung der Hörbeispiele
Als Grundlage für die Erstellung der Hörbeispiele zu Abschnitt 1 dienten die im Brahmssaal gemessenen BRIRs. Dabei wurde im Einzelnen wie folgt vorgegangen:
1. Trockene HRTF
Zunächst wurden aus allen BRIRs der zu untersuchenden Richtungen (ϕ= 0°, 30°, 60°, 130° und 180°)
die jeweiligen HRTFs isoliert. Dies geschah mit Hilfe einer kurzen Blende (25 Samples), die unmittelbar
zwischen dem Ausschwingvorgang des Direktsignals und dem Einsetzen der ersten Reflexion angesetzt
wurde. Sie teilte die Impulsantwort also in zwei Teile. Somit konnten die jeweilige HRTF und ihre dazugehörige binaurale Raumantwort als getrennte Bestandteile einer gesamten Übertragungsfunktion genutzt
werden. Aus den isolierten HRTFs wurden mittels Faltung des Audiomaterials sodann die ersten fünf der
insgesamt 15 Beispiele gewonnen.
2. Echte Reflexionen
In einem nächsten Schritt wurde das Reflexionsmuster von seiner diffusen Hallfahne getrennt. Dies
geschah mit Hilfe einer zweiten, längeren Blende. Die Länge dieser Blende betrug 60 ms. Ihr Beginn
32
Abbildung 21: Fragebogen aus Abschnitt 1: Onlinebefragung (links), Befragung vor Ort (rechts)
wurde unmittelbar nach dem Direktsignal so angesetzt, dass sie über den Verlauf des gesamten ReflexionsAbschnitts gleichmäßig wirksam war. Da – wie bereits erwähnt – die diffuse Hallfahne bei der Ortung
von Signalen ohnehin keine (oder allenfalls eine untergeordnete) Rolle spielt, wurde in den Beispielen des
ersten Abschnitts gänzlich auf diese verzichtet. Es kamen lediglich die Komponenten Direktsignal und
frühe Reflexionen zum Einsatz.
Für die Gegenüberstellung mit trockenen HRTFs brachte dies den Vorteil, dass sich die Beispiele rein
äußerlich nicht allzu offensichtlich voneinander unterschieden. Das Vorhandensein einer deutlich hörbaren
Hallfahne hätte an dieser Stelle bei den Hörern möglicherweise unnötige Irritationen bewirkt und vom
eigentlichen Gegenstand der Untersuchung abgelenkt.
Durch Faltung des Audiomaterials mit diesem Abschnitt der BRIR wurden somit die separierten
Reflexionsmuster zu den jeweiligen Richtungen erzeugt. Durch deren laufzeitrichtige Kombination mit
den fünf bereits vorliegenden, trockenen Signalen entstanden also weitere fünf Hörbeispiele.
Alternativ zu der Verwendung des binauralen Reflexionsmusters sollte für jede der fünf Richtungen
noch eine weitere Möglichkeit einbezogen werden. Anstelle der binauralen Reflexionen sollte ein nachträglich auralisiertes Reflexionsmuster mit dem Direktsignal kombiniert werden. Das hierfür verwendete
Reflexionsmuster stammte aus Impulsantworten derselben Messreihe wie die BRIRs. Sie wurden parallel
zur Messung mit dem Kunstkopf mit Hilfe eines Druckempfängers aufgezeichnet und auf dieselbe Weise
bearbeitet (vgl. Kap. 2). Das Reflexionsmuster weist also genau die gleiche zeitliche Struktur auf wie sein
jeweils binaurales Pendant, jedoch ist es auf eine räumliche Dimension reduziert.
Durch die Faltung des Audiosignals mit diesen Reflexionen wurde zunächst ein reiner Mono-Reflexionsanteil
gewonnen. Dieser wurde seinerseits mit der entsprechenden HRTF gefaltet, so dass in diesen fünf Hörbeispielen die Reflexionen zwar stets binaural, jedoch alle aus derselben Richtung wie das Direktsignal
wiedergegeben wurden.
3.1.2
Testabschnitt 2
Während der vorangegangene Testabschnitt von der Frage geleitet war, ob sich mit Hilfe natürlicher
Reflexionen ein Vorteil bewirken ließe, sollte mit Hilfe des zweiten Abschnitts überprüft werden, inwieweit
sich unterschiedliche Pegelverhältnisse zwischen dem Direktschall und den frühen Reflexionen in Bezug
auf Ortung und klangliche Natürlichkeit vorteilhaft bemerkbar machten. Dabei spielte in erster Linie die
Vermutung eine Rolle, dass mit zunehmendem Anteil der frühen Reflexionen vor allem die Außer-KopfLokalisation verstärkt und damit verbunden auch die richtungsmäßige Ortbarkeit begünstigt würde.
33
Um dieser Vermutung auf den Grund zu gehen, wurden für den zweiten Testabschnitt drei weitere
Auralisationsmuster gewählt; diesmal wie folgt:
1. BRIR ohne Pegeländerung der frühen Reflexionen
2. BRIR mit Anhebung der frühen Reflexionen um +3 dB
3. BRIR mit Absenkung der frühen Reflexionen um -3 dB
Frage-Strategie
Auch in diesem Fall sollte überprüft werden, mit welcher Sicherheit die Hörer in der Lage sein würden,
einem Stimulus seine Richtung zuzuweisen und ob diese Sicherheit je nach gewähltem Pegelverhältnis
variierte. Darum wählten wir auch für diesen Abschnitt die gleiche Vorgehensweise wie in Abschnitt 1.
Die Hörbeispiele wurden also für fünf Einfallsrichtungen (ϕ= 0°, 30°, 60°, 130°, 180°) mit jeweils drei
Auralisationsmustern aufbereitet, woraus sich auch für den zweiten Abschnitt 15 Hörbeispiele ergaben.
Auch der Wortlaut der Fragen unterschied sich nicht von dem des ersten Abschnitts. Die Angabe der
Richtung erfolgte durch Kennzeichnung auf einem Kreis. Ebenfalls war eine Angabe zur subjektiven
Sicherheit und klanglichen Natürlichkeit der Quelle zu machen.
In diesem Abschnitt kamen ebenfalls die im Brahmssaal gemessenen BRIRs zum Einsatz. Wie in
Abschnitt 1 wurde zunächst auch hier auf die beschriebene Weise eine Trennung der Impulsantwort in
ihre Komponenten Direktschall – frühe Reflexionen – Nachhall vorgenommen. Im Unterschied zu Abschnitt 1 wurde hier die diffuse Hallfahne jedoch nicht verworfen, sondern etwas verkürzt und mit leicht
abgesenktem Pegel zugemischt. Diese leichte Verschleierung bewirkte, dass die Pegeländerungen der frühen Reflexionen weniger offensichtlich in Erscheinung treten konnten. Der leichte Nachhall verlieh den
Hörbeispielen zudem einen subjektiv angenehmeren Klang. Die pegelmäßige Veränderung des mittleren
Abschnitts (+3 dB, -3 dB, 0 dB) ergab sodann für jede der fünf Richtungen jeweils drei neue Impulsantworten mit unterschiedlich starken Reflexionsanteilen. Diese wurden mit dem Audiomaterial gefaltet und
ergaben die 15 Hörbeispiele des zweiten Abschnitts. Die Tatsache, dass diese Hörbeispiele eine leichte
Hallfahne enthielten, schloss allerdings einen Vergleich zwischen den Abschnitten 1 und 2 von vornherein
aus. Trotz der identischen Fragestellung können die Angaben deshalb nur innerhalb eines Abschnitts
ausgewertet werden.
3.1.3
Testabschnitt 3
In diesem Abschnitt sollten speziell drei der in Kapitel 2.5 (Systemoptimierung) beschriebenen Möglichkeiten zur Verbesserung der Vorne-/Hinten-Ortung auf ihre Wirksamkeit hin überprüft und den unbearbeiteten Impulsantworten für vorne und hinten gegenübergestellt werden. Abschnitt 3 bestand nur
aus solchen Hörbeispielen, die ausschließlich von vorne oder von hinten zu orten sein sollten.
Folgende Fragestellungen waren dabei von Interesse:
Inwieweit wird die Vorne-/Hinten-Ortung dadurch verbessert, dass
1. eine einzelne Schallquelle durch eine Phantomschallquelle ersetzt wird?
2. zusätzliche Filter zur Hervorhebung der „Blauertschen Bänder“ eingesetzt werden?
3. die (Phantom-)Schallquelle permanent minimal „in Bewegung“ ist?
34
Die Idee bestand darin, anhand mehrerer Audiobeispiele sämtliche dieser Einstellungsmöglichkeiten
für vorne und hinten im Test einander gegenüberzustellen. Unter Hinzunahme der einzelnen unbearbeiteten HRTFs für die 0°- und 180°- Richtung als Referenz hätten sich daraus also insgesamt acht Hörbeispiele
ergeben.
Mit einer Ausnahme wurden die Hörbeispiele auch alle nach diesem Schema erstellt. Es wurde lediglich darauf verzichtet, für oben genannten Punkt 3 (bewegte Quelle) ein hinten liegendes Hörbeispiel
zu erzeugen. Stattdessen wählten wir eine weitere Einstellung für vorne. Diese zusätzliche Einstellung
sollte sozusagen einen Maximal-Eingriff darstellen, indem sie die Punkte 1 bis 3 allesamt miteinander
kombinierte.
Die acht Hörbeispiele waren im Einzelnen:
Beispiel
Variante
benutzte BRIRs
1
0° BRIR
0°
2
180° BRIR
180°
3
Phantomschallquelle vorn
-30°/+30°
4
Phantomschallquelle hinten
-150°/+150°
5
Phantomschallquelle mit Filterung vorn
30°/+30°
6
Phantomschallquelle mit Filterung hinten
-150°/+150°
7
Phantomschallquelle in Bewegung, vorn
30°/+30°
8
Phantomschallquelle in Bewegung,
mit Filterung vorn
30°/+30°
Tabelle 2: Hörbeispiele in Testabschnitt 3
Zwar waren die Hörbeispiele für den Test ohnehin in zufälliger Reihenfolge angeordnet, jedoch wurde
zudem jedes der Beispiele zweimal (identisch) verwendet, um bei der Durchführung des Tests eine noch
höhere Unabhängigkeit der Ergebnisse untereinander zu erreichen. Somit ergaben sich insgesamt 16 Fragen
für Abschnitt 3.
Frage-Strategie
Für die Befragung der Testpersonen diente nun eine senkrechte Achse zur Erfassung der Lokalisation.
Auf dieser sollten die Hörer durch eine Markierung kennzeichnen, wie weit „außerhalb des Kopfes“ sie
die Schallquelle vorne oder hinten hören konnten. Das obere und untere Ende der Achse symbolisierte
dabei je ein deutlich vorne oder deutlich hinten wahrgenommener Stimulus. Dazwischen waren stufenlose
Markierungen möglich. Eine Markierung genau auf der Achsen-Mitte sollte dann gemacht werden, wenn
der Hörer das Gefühl hatte, die Quelle weder vorne noch hinten, sondern im Kopf zu lokalisieren. Für
den Fall, dass der Hörer bei einem Beispiel überhaupt nicht in der Lage wäre, eine Aussage über die
Lokalisation zu treffen, hatte er zusätzlich die Möglichkeit, dies durch Ankreuzen eines separaten Feldes
zu signalisieren. In diesem Fall blieb die Markierung auf der Vorne-/Hinten-Achse unberücksichtigt.
Einen weiteren Parameter, der insbesondere aufgrund der Verwendung virtueller Phantomschallquellen von Interesse war, stellte die „Schärfe“ dar, mit welcher eine Quelle wahrgenommen wurde.
Abbildungsschärfe kann in diesem Zusammenhang etwa mit der empfundenen Breite der Quelle gleichgesetzt werden. Bei unscharfer Lokalisation scheint die Quelle über die gesamte Breite des vorderen oder
hinteren Halbraumes ausgedehnt, während sie bei hoher Lokalisationsschärfe eher eine geringe räumliche
Ausdehnung zu besitzen scheint. Ihren Eindruck darüber sollten die Testhörer zu jedem Beispiel auf einer
vierstufigen Skala („sehr unscharf“ bis „sehr scharf“) festhalten.
Da die Anwendung von Filtern zur Hervorhebung der Blauertschen Bänder einen zusätzlichen Eingriff
in den Frequenzgang darstellt, der sich unter Umständen auch negativ auf die klangliche Qualität des
35
Signals auswirken könnte, sollten die Hörer außerdem eine Angabe zur empfundenen Klangfarbe machen.
Hierfür konnten sie eine von drei Möglichkeiten (neutral / leicht verfärbt / stark verfärbt) ankreuzen.
Die folgende Abbildung zeigt einen Ausschnitt von Abschnitt 3 der Online-Befragung (links) und der
Einzelbefragung (rechts).
Abbildung 22: Fragebogen aus Abschnitt 3: Onlinebefragung (links), Befragung vor Ort (rechts)
Da in diesem Versuch keine Veränderungen an den frühen Reflexionen vorgenommen werden sollten,
war auch eine Aufteilung der BRIRs in ihre drei Bestandteile nicht notwendig. Mit Hilfe einer Hüllkurve
wurde bei allen BRIRs allerdings die ursprüngliche Nachhallzeit etwas gekürzt. Der Grund war zum einen,
den klanglichen Unterschied zu den Hörbeispielen der vorangegangenen Abschnitte möglichst gering zu
halten, zum anderen spielten dabei auch rein geschmackliche Aspekte eine Rolle. Dieser Eingriff bezog
sich aber ausschließlich auf den diffusen Nachhall; das originale Reflexionsmuster blieb davon unberührt.
Die diesem Abschnitt zu Grunde liegenden vier BRIRs (ϕ = 0°, 180°, -30°, -150°) stammten von
den Messungen im Brahmssaal. Die zur Gewinnung der Phantomschallquellen jeweils gegenüberliegenden
BRIRs (ϕ = +30° und ϕ = +150°) wurden mit Hilfe der bereits in Kapitel 2.5.4 beschriebenen ResamplingMethode aus den gemessenen BRIRs (ϕ = -30° und ϕ = -150°) erzeugt.
Filterkurven nach Blauert
Bei der Suche nach Filtereinstellungen, die die richtungsbestimmenden Bänder nach Blauert möglichst
optimal unterstützen, wurden mehrere Vorversuche durchgeführt, aus denen die letztendlich verwendeten
Einstellungen hervorgingen. Es sei hier noch einmal darauf hingewiesen, dass sich in der Literatur keine
Angaben finden, mit deren Hilfe man anhand der statistischen Häufigkeitsverteilung, wie sie durch die
vorgefundenen Kurven nach Blauert repräsentiert wird, eine „richtige“ Filtereinstellung ableiten könnte.
Die Kurven wurden lediglich als Anhaltspunkt verwendet. Prinzipiell waren dabei zunächst verschiedene
Herangehensweisen denkbar. Einerseits könnte man Frequenzbereiche, die für die jeweils gewünschte
Richtung ausschlaggebend sind, verstärken. Dies würde für von vorn kommende Schallereignisse je eine
Anhebung der Frequenzen bei etwa 400 Hz und 4 kHz bedeuten.
Andererseits wäre aber auch eine Absenkung der für die jeweils gegenüberliegende Richtung ausschlaggebenden Frequenzbereiche denkbar. Um also ein vorne liegendes Schallereignis „weniger hinten“
erscheinen zu lassen, wäre in diesem Falle eine Absenkung bei etwa 1 kHz erforderlich. Diese beiden Wege
schlägt auch Sengpiel vor [vgl. Sengpiel: „Die Bedeutung der Blauertschen Bänder für die Tonaufnahme“].
Sengpiel verweist in diesem Zusammenhang auf Untersuchungen von Bücklein [Bücklein 1964], wonach
36
Veränderungen im Frequenzgang akustischer Signale im Falle einer Pegelanhebung wesentlich deutlicher
wahrgenommen werden als im Falle einer Absenkung. In den Vorversuchen wurden verschiedene Varianten, teils mit Hilfe eines parametrischen Equalizers, teils mit Hilfe einer FFT-Frequenzgangkorrektur in
Bezug auf ihre Wirksamkeit und klangliche Verfärbung miteinander verglichen.
Als guter Kompromiss stellten sich dabei solche Filterkurven heraus, die sich in ihrem Verlauf sehr
eng am Verlauf der richtungsbestimmenden Bänder orientierten, dabei aber nur eine Anhebung der zu
unterstützenden Bereiche bewirkten, ohne die gegenüberliegenden Frequenzbänder abzusenken.
Die Filterkurven, die letztendlich zum Einsatz kamen, sind in der folgenden Abbildung dargestellt.
Abbildung 23: Filterfrequenzgänge für vorne (links) und hinten (rechts)
Phantomschallquelle in Bewegung
Da in der Struktur des DAW-Projektes, mit dessen Hilfe die Hörbeispiele für Abschnitt 3 erzeugt
wurden, ohnehin bereits die Verwendung von Phantomschallquellen vorgesehen war, stellte das virtuelle
„In-Bewegung-Versetzen“ der Schallquellen keinen allzu großen Schritt mehr dar. Mit Hilfe eines LFOSignals wurde das Audiosignal, das dem linken bzw. rechten Kanal der virtuellen Stereobasis zugeführt
wurde, mit leichten Pegelschwankungen versehen.
Diese Pegelschwankungen hatten einen exakt gegenphasigen Verlauf, so dass sich als Resultat daraus
eine permanente, geringfügige Veränderung der Position des Signals im Panorama ergab. Die Schwankungen erfolgten dabei mit einer Frequenz von etwa 0,7 Hz. bei einer Amplitude von +/-1,3 dB.
3.1.4
Testabschnitt 4
Während sich die Abschnitte 1-3 allesamt mit rein technischen Verbesserungsmöglichkeiten der Impulsantworten beschäftigten, hatte Abschnitt 4 zum Ziel, die Methode nun in der musikalischen Praxis auf
die Probe zu stellen. Hierzu wurden aus zwei bereits vorliegenden Musik-Produktionen jeweils ein Paar
unterschiedliche Mischungen erstellt, mit denen die Testhörer konfrontiert wurden. In erster Linie waren
dabei die spontanen Reaktionen und Werturteile der Hörer, welche sie den verschiedenen Mischungen
beimaßen, von Interesse.
Auf diesem Weg sollte eine erste Annäherung an Fragen der Tauglichkeit der Methode in Bezug auf
ihre klanglich-ästhetische Verwendung in künstlerischem Kontext gewagt werden.
Frage-Strategie
Bei der Konzeption des Testabschnitts zeigte sich bald, dass es ein extrem schwieriges Unterfangen
sein würde, einen geeigneten Weg zu finden, um Hörern darüber gezielt aufschlussreiche Antworten zu
entlocken. Die subjektiven Kategorien, in welchen ästhetische Werturteile über ein klangliches Erlebnis
gebildet werden, sind überaus komplex und divergieren zudem zwischen einzelnen Personen in einem zu
hohen Maße, als dass sie mit einigen wenigen Fragen aussagekräftig in parametrisierter Form abgefragt
werden könnten. Eine systematische Untersuchung dieser Art würde zum einen den Rahmen eines solchen
37
Hörversuchs sprengen und wäre zum anderen in einem so frühen Stadium der Erprobung unserer Methode
vermutlich auch noch nicht indiziert.
Anstatt also durch die Fragestellung gezielte Aspekte ästhetischer Kategorien vorzugeben, entschieden
wir uns dazu, die Versuchspersonen zu jedem Hörbeispiel vollkommen unvoreingenommen nach ihrem
ersten Gesamteindruck beim Hören der jeweiligen Mischungen zu befragen. Dies geschah schlicht in Form
einer Schulnote, die die Hörer zu jedem Beispiel auf einer Skala von 1 (bestes Urteil) bis 6 (schlechtestes
Urteil) vergeben sollten.
In der Annahme, dass bei diesem Entscheidungsprozess jeder Hörer zwangsläufig seine individuellen,
subjektiven Kategorien zu Rate ziehen muss – ohne sie wäre er schließlich nicht in der Lage, zu einem
Urteil zu gelangen – schien es uns besonders interessant, an dieser Stelle jeweils einen kurzen, freien
Kommentar einzufordern. Die Vermutung lag nahe, dass die Begriffe, welche die Hörer spontan dazu
verwenden würden, ihren persönlichen Eindruck zu schildern, nachdem sie unmittelbar zuvor eine Note
vergeben hatten, deutliche Rückschlüsse darüber erlauben würden, welche ästhetischen Kategorien ihnen
bevorzugt dienten, um beim unvoreingenommenen Hören einer binauralen Musikmischung zu einem Urteil
zu gelangen.
Die Mischungen
Bei den beiden verwendeten Musikbeispielen handelte es sich jeweils um einen Ausschnitt von etwa
einer Minute Länge aus den folgenden Stücken:
1. R. Murray Schaffer: „Epitaph for Moonlight“ für 16-stimmigen Chor a capella
(Kunstkopfaufnahme versus binaurale Mischung)
Im ersten Mischungspaar, in dem ein Stück für 16-stimmigen Chor zu hören war, wurde eine unbearbeitete Kunstkopfaufnahme einer binauralen Nachmischung desselben Stückes gegenübergestellt.
Ziel der binauralen Mischung war es, das klangliche Ergebnis nach Möglichkeit an die Kunstkopfaufnahme anzunähern und im Hörvergleich zu erfahren, worin sich für die Hörer klanglich-ästhetische
Unterschiede der beiden Varianten manifestierten, bzw. ob die Hörer überhaupt mehrheitlich in der
Lage sein würden, klangliche Unterschiede festzustellen. Die beiden Mischungen sind auf der beigefügten CD enthalten. Ausführliche Beschreibungen zur Vorgehensweise finden sich im Appendix.
2. Stereo Inn: Popsong „St. John’s“ (zwei Gesangsstimmen, Akustikgitarre, Shaker)
(Raumbezogene Mischung versus binaurale Mischung)
Im zweiten Mischungspaar, in dem ein Popsong zu hören war, wurde eine raumbezogene Mischung
einer binauralen Nachmischung desselben Stückes gegenübergestellt. Bei der Erstellung beider Mischungen wurde versucht, zwei klanglich bestmögliche Varianten zu erstellen, die sich in Lautheit
und Klangfarbe gleichen sollten. Die beiden Mischungen sind auf der beigefügten CD enthalten.
Ausführliche Beschreibungen zur Vorgehensweise finden sich im Appendix.
38
3.2
Auswertung des Hörvergleichs
In den Hörversuchen wurden insgesamt 62 Versuchspersonen befragt. Diese verteilten sich zu je 31
Probanden auf die Einzelbefragung („Offline“) und die Internet-Befragung („Online“).
Die Hörerschaft rekrutierte sich überwiegend aus musiknahen Berufsgruppen, wobei etwa die Hälfte von Tonmeisterstudenten bzw. Tonmeistern gestellt wurde. In der Einzelbefragung, die im ErichThienhaus-Institut stattfand, standen Tonmeisterstudenten und Studierende anderer Studiengänge sowie
Dozenten und Professoren zur Verfügung. Für die Online-Befragung konnten darüber hinaus Tonmeisterstudenten anderer Hochschulen (Universität der Künste Berlin, Universität für Musik und darstellende
Kunst Wien) sowie einige Studierende und Mitarbeiter des Instituts für Technische Akustik (ITA) der
RWTH Aachen gewonnen werden.
Versuchsleiter
Alle Versuchspersonen hatten den Test selbständig mit Hilfe einer CD bzw. eines Online-Fragebogens
durchzuführen. Zu Beginn des Tests wurden jeder Versuchsperson ausführliche schriftliche Erläuterungen
zur Vorgehensweise gegeben. Im Falle der Online-Befragung ist eine Einflussnahme des Versuchsleiters
somit ausgeschlossen.
Bei der Durchführung der Offlinebefragung wurden die Eingangs-Erläuterungen dagegen in einigen
Fällen mündlich gegeben, vorrangig mit dem Ziel, der Nervosität unerfahrener Testhörer entgegenzuwirken. Zudem war es den Teilnehmern der Offline-Befragung jederzeit gestattet, im Verlauf des Tests
Rückfragen zu stellen. Jedoch wurde von dieser Option nur in den seltensten Fällen Gebrauch gemacht.
Somit kann die Einflussnahme des Versuchsleiters auch in der Offline-Befragung als vernachlässigbar
angesehen werden.
Wiedergabereihenfolge
Durch die unterschiedliche Reihenfolge, mit der die Hörbeispiele innerhalb der Test-Varianten A,
B und C wiedergegeben wurden, sollte der Einfluss der Wiedergabe-Reihenfolge auf das Testergebnis
verringert werden.
Mit Hilfe eines Chi-Quadrat-Tests wurden die Angaben der Hörer zu den sich jeweils entsprechenden
Hörbeispielen zwischen den Varianten A, B und C verglichen. Dies ließ erkennen, dass unabhängig von der
wiedergegebenen Reihenfolge der Hörbeispiele bereits eine relativ hohe Übereinstimmung der Aussagen
gegeben war. Die an wenigen Stellen auftretenden Abweichungen konnten durch die Einbeziehung aller
drei Varianten als vernachlässigbar angesehen werden.
Tätigkeitsfelder der Testpersonen
Die folgende Tabelle zeigt eine Aufschlüsselung der Versuchspersonen nach Tätigkeitsbereich:
Beruf
Anzahl
Tonmeister
31
Musiker
16
Technische Berufe
9
Sonstige
6
Tabelle 3: Auflistung der Testteilnehmer nach Beruf
Eine Unterscheidung nach Tätigkeitsfeld der jeweiligen Probanden wurde zunächst nicht vorgenommen. Da in den Abschnitten 1-3 lediglich die Ortbarkeit von Schallquellen als ein Phänomen des natürlichen Hörens untersucht wurde, schien diese Trennung nicht notwendig. Erst in Abschnitt 4, wo Aussagen
39
zur ästhetischen Empfindung eingeholt wurden, kann diese Unterscheidung mögliche Rückschlüsse auf
Hörgewohnheiten von Personen unterschiedlicher Berufsgruppen erlauben.
Eine Begleiterscheinung bei der Wiedergabe binauraler Signale ist die Variation der Abbildungstreue
bei der Verwendung unterschiedlicher Kopfhörersysteme. Im Falle der Online-Befragung machte sich dies
deutlich bemerkbar. Aus diesem Grund wurden die Ergebnisse, die aus den beiden Befragungsmethoden
hervorgingen, teilweise getrennt betrachtet.
3.2.1
Testabschnitt 1
Für die Auswertung der Abschnitte 1 und 2 wurden Polardiagramme erstellt, anhand derer sich die
Häufigkeitsverteilungen der wahrgenommenen Richtungen im Einzelnen ablesen lassen.
Zur Bestimmung der Häufigkeit wurden alle Winkelangaben der Probanden auf ein 30°-Raster gerundet.
Da aufgrund der eindeutigen Laufzeit- und Pegeldifferenzen keine Verwechslungen zwischen dem linken
(-180°<ϕ<0°) und rechten Halbkreis (0°<ϕ<180°) zu erwarten waren, wurden außerdem alle Angaben
rein betragsmäßig betrachtet.
Die folgenden Diagramme zeigen die Ergebnisse von Abschnitt 1. Zu beachten ist, dass in dieser eigentlich betragsmäßigen Darstellung allein der Übersichtlichkeit wegen ein geschlossener Kreis verwendet
wurde. Die Ergebnisse für Stimuli aus den Richtungen 0°, 30° und 60° sind nach rechts dargestellt, diejenigen für 120° und 180° dagegen nach links. Die Diagramme aus Abbildung 24 zeigen die Ergebnisse
unter Einbeziehung aller 62 Hörer aus Online- und Offline-Befragung. In Abbildung 25 und 26 sind die
Ergebnisse der Online- und Offline-Befragung getrennt dargestellt.
Abbildung 24: Häufigkeiten der wahrgenommenen Richtungen, alle Probanden.
Bei Betrachtung der Gesamtergebnisse (erste Zeile) fällt zunächst auf, dass Richtungen der Stimuli
sowohl in der Einstellung „Trockene HRTF“ als auch in der Einstellung „Nachträglich auralisierte Reflexionen“ eine generelle Tendenz nach vorne aufweisen.
Speziell die 180°-Richtung wurde in beiden Einstellungen wesentlich häufiger in der vorderen Hälfte
wahrgenommen als in der hinteren. In der trockenen Einstellung orteten insgesamt 40 von 62 Hörern
(65%) diese von vorne anstatt von hinten; bei nachträglich auralisierten Reflexionen trat dieser Irrtum
sogar bei 43 Hörern (69%) auf.
Die drei seitlichen Winkel (30°, 60° und 120°) lassen in der Einstellung mit trockener HRTF allesamt
keine klare Tendenz zwischen vorne und hinten erkennen. Die Beispiele für 60° und 120° wurden von
einer deutlichen Mehrheit der Hörer aus 90°-Richtung wahrgenommen, während 30°-Stimuli eher der
40
Abbildung 25: Häufigkeiten der wahrgenommenen Richtungen, Probanden der Befragung vor Ort.
Abbildung 26: Häufigkeiten der wahrgenommenen Richtungen, Probanden des Online-Tests.
60°-Richtung zugeordnet wurden. Dabei traten jedoch in mehr als der Hälfte aller Fälle die typischen „incone“-Verwechslungen auf. In der Einstellung „Nachträglich auralisierte Reflexionen“ ist für die seitlich
gelegenen Hörbeispiele sogar eine generelle, leicht gegenläufige Tendenz zu beobachten.
Die vorne liegenden Stimuli (30°, 60°) wurden hier deutlich häufiger in der hinteren Hälfte geortet,
während der hinten liegende 120°-Stimulus in mehr Fällen von vorne wahrgenommen wurde.
Das dritte Diagramm, in dem die Ergebnisse für eine Auralisation mit echten BRIRs dargestellt sind,
zeigt dagegen ein anderes Bild. Bei Betrachtung der Einstellungen für 0° und 180° fällt auf, dass die
Ergebnisse hier tatsächlich eine Tendenz nach der entsprechenden Richtung aufweisen. Während der
180°-Stimulus von einem größeren Teil der Hörer (56%) tatsächlich hinten geortet werden konnte, wurden
vorne liegende Stimuli nach wie vor häufiger im vorderen Bereich wahrgenommen (63%).
Bei den seitlich gelegenen Richtungen zeigt sich der auffälligste Unterschied in der Ortbarkeit des 120°Stimulus. Hier konnte mehr als die Hälfte aller Probanden die Richtung korrekt bestimmen. Während in
insgesamt 32 Fällen genau 120° angegeben wurden, lagen von den übrigen 30 Probanden immerhin noch
26 lediglich im benachbarten Sektor.
In der Gesamtdarstellung zeigt sich jedoch das Problem, dass die Wahrnehmung der 30°-Richtung
selbst bei der Verwendung echter BRIRs eine hohe Rate an „in-cone“-Verwechslungen aufweist. Dies
könnte besonders bei der Verwendung von virtuellen Phantomschallquellen ein Problem darstellen, da
hier als Basis Impulsantworten aus der Richtung 30° Verwendung finden.
Ein Vergleich zwischen den Ergebnissen der Online- und der Offline-Befragung zeigt, dass offensichtlich
ein signifikanter Unterschied zwischen den beiden Befragungen besteht. Es ist deutlich zu erkennen, dass
in der vor Ort durchgeführten Offline-Befragung die wesentlich besseren Ergebnisse erzielt wurden als
in der Online-Befragung. Dieser Unterschied ist mit großer Wahrscheinlichkeit auf die verschiedenen
Frequenzgänge der verwendeten Kopfhörer zurückzuführen. Während in der Offline-Befragung bei allen
Hörern einheitlich das Modell AKG K601 zum Einsatz kam, gab es in der Onlinebefragung nur die nicht
41
näher spezifizierte Vorgabe, einen hochwertigen Kopfhörer zu verwenden. Die Probanden des Offline-Tests
waren offensichtlich viel eher in der Lage, einen 30°-Stimulus tatsächlich vorne zu orten.
Lediglich eine minimale Tendenz nach vorne zeichnet sich bei der 60°-Richtung ab. Dieser Stimulus
wurde von einem großen Teil der Hörer aus der 90°-Richtung wahrgenommen.
3.2.2
Testabschnitt 2
Die folgenden Abbildungen zeigen die Ergebnisse des zweiten Testabschnitts, bei dem untersucht wurde, inwieweit sich Änderungen am Pegel der frühen Reflexionen in Bezug auf die Lokalisation bemerkbar
machen. Aufgrund der deutlich höheren Aussagekraft der Einzelbefragung, die durch die Verwendung
eines einheitlichen Kopfhörermodells gewährleistet war, wurden in den folgenden Betrachtungen lediglich
diese Ergebnisse untersucht.
Abbildung 27: Häufigkeiten der wahrgenommenen Richtungen nach Modifikation, Probanden der Befragung vor Ort.
Da allen drei Einstellungen echte BRIRs zu Grunde lagen, lässt sich bezüglich der Vorne-/HintenLokalisation zunächst jeweils eine Ähnlichkeit zu der im ersten Abschnitt untersuchten Auralisation mit
echten BRIRs erkennen. Untereinander weisen die drei Einstellungen auch eher geringe Unterschiede auf.
In Bezug auf die Ortbarkeit des 0°-Stimulus zeigt sich bei Anhebung der frühen Reflexionen eine gewisse
Tendenz nach hinten. Während in der 0 dB-Einstellung der größere Teil der Hörer in der Lage war,
das Beispiel vorne zu orten, gab die Mehrheit bei Anhebung der Reflexionen an, das Signal von hinten
wahrzunehmen.
Eine Absenkung der frühen Reflexionen scheint sich dagegen negativ auf die Rate der „in-cone“Verwechslungen auszuwirken. Betrachtet man die Angaben der Probanden bezüglich der 30°-Richtung,
so fällt auf, dass sowohl in der Einstellung +3 dB als auch 0 dB jeweils die Mehrheit den Stimulus
auch im vorderen Bereich wahrnehmen konnte. Bei Absenkung der Reflexionen um 3 dB nahmen die
Verwechslungen dagegen zu, und die Mehrheit gab an, den Stimulus von hinten wahrzunehmen.
Insgesamt ist aber zu erkennen, dass sich Veränderungen am Pegel der frühen Reflexionen eher in
geringem Maße auf die Ortung auswirken. Es lässt sich die Vermutung anstellen, dass als optimales
Verhältnis eben das durch die reale Messung vorgegebene Verhältnis gelten kann. Pegelmäßige Veränderungen der frühen Reflexionen sind im Rahmen einer Musikmischung zulässig, solange sie ein gewisses
Maß nicht überschreiten. Inwieweit dies von der Charakteristik des jeweiligen Messraums abhängig ist,
müsste jedoch im Rahmen weiterer Messungen überprüft werden.
42
Auswertung der Parameter „Sicherheit“ und „Natürlichkeit“ aus Abschnitt 1 und 2
Unabhängig von der tatsächlichen Angabe der Richtung wurde für die Abschnitte 1 und 2 in einem
Diagramm der Parameter „Sicherheit“ aufgetragen.
Abbildung 28: Mittelwerte für den Paramter Sicherheit
Aus dieser Darstellung lässt sich klar ablesen, dass die subjektiv empfundene Sicherheit, mit der die
Probanden glaubten, einem Stimulus seine Richtung zuweisen zu können, in keinem Zusammenhang mit
dem verwendeten Auralisationsmuster steht. Allein die Richtung der Stimuli ist hierfür ausschlaggebend.
Hierbei erweisen sich die 0°- und 180°-Richtung als besonders problematisch.
Auch der Parameter „Natürlichkeit“ weist in seinem Verlauf eine ähnliche Struktur auf.
Abbildung 29: Mittelwerte für den Paramter Natürlichkeit
Es ist auch hier ersichtlich, dass Quellen aus der 0°- und 180°-Richtung tendenziell als unnatürlich
klingend empfunden werden.
Lediglich Quellen, die mit einem nachträglich auralisierten Reflexionsmuster versehen waren, wurden
in ihrer Gesamtheit deutlich schlechter beurteilt. Offenbar werden Reflexionen aus derselben Richtung
wie der Stimulus als sehr unnatürlich empfunden und wirken sich im Vergleich zu einer trockenen HRTF
nicht gewinnbringend aus.
Zusammenfassung der Ergebnisse aus Abschnitt 1 und 2
Die Ergebnisse legen nahe, dass sich durch die Verwendung von BRIRs eine deutliche, objektive Verbesserung in Bezug auf die Lokalisation von Quellen bewirken lässt. Diese Verbesserung ist
43
ausschließlich in der binauralen Struktur des Reflexionsmusters begründet und nicht in dem reinen
Vorhandensein früher Reflexionen.
Das Pegelverhältnis, in dem die frühen Reflexionen dabei zum Direktsignal stehen, ist
hierbei von untergeordneter Bedeutung.
3.2.3
Testabschnitt 3
Vor der Auswertung von Abschnitt 3 wurde zunächst mit einem Chi-Quadrat-Test überprüft, ob
die Reihenfolge der Hörbeispiele möglicherweise die Ergebnisse beeinflusste. Dies konnte jedoch ausgeschlossen werden. Auch die Signifikanz der Ergebnisse untereinander wurde mit einem Chi-Quadrat-Test
überprüft, getrennt nach Durchführungsmodus (online / im ETI). Hierbei stellte sich heraus, dass die
Werte für die Angabe der Vorne-/Hinten-Lokalisation im Falle des online durchgeführten Tests nicht
aussagekräftig waren. Diese Daten wurden daher für die Betrachtungen in Abschnitt 3 verworfen. Die
Gründe hierfür müssten sicherlich näher untersucht werden; es kann aber davon ausgegangen werden,
dass die Verwendung zum Teil minderwertiger Kopfhörer hierbei eine Rolle gespielt hat.
Die Abbildungen 30 und 31 zeigen die Mittelwerte der gemachten Angaben für Vorne- und HintenLokalisation aus Abschnitt 3 für den im ETI durchgeführten Test. Die Balken zeigen einen Vertrauensbereich von 95% an, d.h. unter der Annahme einer Normalverteilung liegen 95% aller Werte in dem jeweils
angezeigten Bereich.
Abbildung 30: Mittelwerte der Angaben für Vorne-Lokalisation nach Modifikation
Dabei ist:
0° vollständige BRIR für ϕ = 0°
Blauert V virtuelle Phantomschallquelle auf einer Basis von 60° (ϕ1 = -30°, ϕ2 = +30°), in
Kombination mit der unter 3.1.3 beschriebenen Filterung
Phantom V virtuelle Phantomschallquelle auf einer Basis von 60°
Maximal leicht bewegte virtuelle Phantomschallquelle auf einer Basis von 60° in Kombination mit der unter 3.1.3 beschriebenen Filterung
Bewegt leicht bewegte virtuelle Phantomschallquelle auf einer Basis von 60°
Zunächst einmal ist anzumerken, dass die als „Blauert V“ bezeichnete Modifikation der Filterung
auf dem Prinzip der virtuellen Phantomschallquelle aufbaut. Daher ist aus Abb. 30 abzuleiten, dass die
44
Abbildung 31: Mittelwerte der Angaben für Hinten-Lokalisation nach Modifikation
Vorne-Lokalisation im Falle von „Blauert V“ zwar stabiler gelingt als bei einer 0°-BRIR, die Anwendung der Filterung aber offensichtlich zu einer Verschlechterung führt, verglichen mit einer virtuellen
Phantomschallquelle („Phantom V“).
Bei letzterer kann im Vergleich zur Verwendung einer 0°-BRIR ein signifikanter Gewinn für die VorneLokalisation festgestellt werden.
Die Bewegung der Schallquelle sorgte dagegen für eine deutlichere Verschlechterung der Ortung. Die
Wahrnehmung der meisten Probanden kippte in diesem Fall nach hinten, obwohl auch hier vordere BRIRs
für ϕ1 = -30° und ϕ2 = +30° verwendet wurden. Offenbar wirken diese Bewegungen eher irritierend.
Für die Hinten-Lokalisation (Abb. 31) kann kein Gewinn durch Verwendung einer Frequenzgangkorrektur („Blauert H“) oder virtueller Phantomschallquellen („Phantom H“) festgestellt werden.
Abbildung 32: Abbildungsschärfe: 1 = sehr scharf, ..., 4 = sehr unscharf
Abbildung 33: Klangfarbe: 1 = neutral, 2 = leicht verfärbt, 3 = stark verfärbt
45
Die Abbildungen 32 und 33 zeigen die Mittelwerte der gemachten Angaben zu Klangfarbe und Abbildungsschärfe. Auffällig ist, dass die beiden Abschnitte miteinander korrelieren.
Die Verwendung einer Frequenzgangkorrektur („Blauert V“ und „Blauert H“) führt erwartungsgemäß
zu einer deutlichen Verschlechterung der Klangfarbe. Interessanterweise scheint dagegen die Verwendung
einer virtuellen Phantomschallquelle die wahrgenommene Klangfarbe zu verbessern. Bei der Abbildungsschärfe kommt es dabei offenbar zu keiner Verschlechterung, obwohl im Falle der Phantomschallquelle
jeweils zwei virtuelle Quellen verwendet werden. Sogar für den hinteren Bereich, in dem nach Abb. 31 die
virtuelle Phantomschallquelle in der Ortung schlechter abschneidet, wurde von den meisten Probanden eine angenehmere Klangfarbe und eine bessere Abbildungsschärfe derselben wahrgenommen als dies bei der
echten 180°-BRIR der Fall war. Eine Bewegung der Phantomschallquellen scheint in der Wahrnehmung
der Probanden die Abbildungsschärfe negativ zu beeinflussen, während die Bewertung der Klangfarbe im
Vergleich zur 0°-BRIR unberührt bleibt.
Zusammenfassung der Ergebnisse aus Abschnitt 3
In Abschnitt 3 konnte gezeigt werden, dass die Verwendung virtueller Phantomschallquellen im vorderen Bereich ein wirksames Mittel zur Reduzierung von Vorne-Hinten-Vertauschung darstellt. Auch auf
die Parameter Klangfarbe und Abbildungsschärfe wirkt sich eine Verwendung derselben positiv aus.
Bewegte Phantomschallquellen hingegen bewirken eine deutlich verschlechterte Lokalisation bei gleichzeitig abnehmender Abbildungsschärfe. Eine Wirksamkeit der in dieser Arbeit vorgestellten Frequenzgangkorrektur konnte weder für den vorderen noch für den hinteren Bereich nachgewiesen werden.
Für die Hinten-Lokalisation empfiehlt sich daher zusammenfassend die Verwendung einer
180°-BRIR, für vorne dagegen virtuelle Phantomschallquellen.
3.2.4
Testabschnitt 4
Vor der Auswertung von Abschnitt 4 wurde zunächst mit einem Chi-Quadrat-Test überprüft, ob die
Reihenfolge der Hörbeispiele möglicherweise die Präferenz für eine der vorgestellten Mischungen beeinflusste. Dies konnte jedoch ausgeschlossen werden.
In Bezug auf die vergebenen Schulnoten konnte eine klare Antworttendenz festgestellt werden: Hier
schnitten alle Mischungen etwa gleich gut ab, lediglich das Popmusikbeispiel in Binauralsynthese wurde
fast durchgehend schlechter bewertet (vgl. Abb. 34). Besonders die Tonmeister und Tonmeisterstudenten
bewerteten dieses Beispiel negativ (vgl. Abb. 35). Zwischen der Online-Befragung und der Befragung vor
Ort konnte dabei kein signifikanter Unterschied festgestellt werden, so dass alle 62 Testbögen in diese
Auswertung gleichermaßen eingingen.
Abbildung 34: Mittelwerte der vergebenen Schulnoten
46
Abbildung 35: Mittelwerte der vergebenen Schulnoten nach Beruf
Die 62 ausgewerteten Fälle unterschieden sich dabei in ihrer Präferenz wie folgt:
Abbildung 36: Bevorzugte Mischung im Fall der Choraufnahme (links) und des Popsongs (rechts)
Die Mischung des Chorstückes in Binauralsynthese wurde der Kunstkopfaufnahme gegenüber also als
qualitativ gleichwertig empfunden. Immerhin eine Zahl von 11 Probanden (17,7%) konnte sich hier für
keine bevorzugte Mischung entscheiden. Die Mischung des Popsongs in Binauralsynthese wurde dagegen
nur in etwa 25,8% der Fälle bevorzugt.
Um Rückschlüsse auf die zugrunde liegenden Bewertungskriterien der Probanden ziehen zu können,
wurden die freien Kommentare aus Abschnitt 4 jeweils in sogenannte „Wortwolken“ umgewandelt. Bei
dieser Art der Darstellung erscheinen häufig genannte Wörter in großer, selten genannte in kleiner Schriftgröße (Abb. 37 und Abb. 38). Für die Choraufnahme lagen hierfür 53, für die Popmusikmischung 57
auswertbare Kommentare vor.
Kommentare zur Choraufnahme
Abbildung 37 veranschaulicht, dass zur Bewertung von den Probanden besonders die Räumlichkeit
und die Lokalisation der Einzelquellen herangezogen wurden. Die einzelne Betrachtung der Kommentare
zum Vergleich der Binauralsynthese mit der Kunstkopfaufnahme zeigt dies deutlich. Eine entsprechende
Auflistung aller Kommentare, sortiert nach Präferenz, findet sich in Anhang 1.
Bei Betrachtung der Kommentare ist auffällig, dass die beiden Kriterien „Räumlichkeit“ und „Lokalisation“ für unterschiedliche Argumentationen dienen. Insgesamt überwiegt aber die Meinung, dass die
binaurale Nachmischung eher zugunsten der Lokalisation, die Kunstkopfaufnahme dagegen eher zugunsten der Räumlichkeit ausgefallen zu sein scheint. Lediglich einige wenige Kommentare (vgl. Anhang 1,
unten) erwähnen als weiteres Kriterium die Klangfarbe der Mischungen.
47
Abbildung 37: Wortwolke der Kommentare zur Choraufnahme
Abbildung 38: Wortwolke der Kommentare zur Popmusikaufnahme
Kommentare zur Popmusikaufnahme
Die Wortwolke in Abbildung 38 zeigt dagegen deutlich, dass im Falle der Popmusikaufnahme besonders
auf die Gesangsstimme geachtet wurde. Hierbei wurde offenbar vielfach eine Verfärbung festgestellt. Eine
Auflistung der Kommentare nach Präferenz (s. Anhang 2) zeigt dies noch einmal deutlich.
Neben der Verfärbung der Gesangsstimme wurden in vielen Fällen die unterschiedlichen Lautstärkeverhältnisse der Einzelquellen bemängelt. Tatsächlich glichen sich die Pegelverhältnisse innerhalb der
beiden Mischungen keineswegs, wie in Kapitel 5.6.2 nachzulesen ist. Diese verschiedenen Lautstärkeverhältnisse wurden jedoch je nach Geschmack unterschiedlich von den Probanden bewertet. Ein häufig
genannter Kritikpunkt ist dagegen die Räumlichkeit der Popmusikmischung im Falle der Binauralsynthese. Dies ist auf die Verwendung der BRIRs zurückzuführen, die natürlich ein vorgegebenes binaurales
Reflexionsmuster aufweisen. Das in der Mischung eingesetzte Wandern der Quellen in der Binauralsyn48
these wurde vielfach positiv bewertet oder als interessanter Effekt eingestuft. Des weiteren wurde dabei
häufig die Durchsichtigkeit des Arrangements positiv bewertet. Dies kann unter Umständen tatsächlich
mit der binauralen Platzierung der Einzelstimmen zusammenhängen (vgl. hierzu 5.5.1). Da der negative
Eindruck der Verfärbung in den meisten Fällen überwog, wurde trotzdem mehrheitlich die raumbezogene
Mischung bevorzugt.
Insgesamt ist bemerkenswert, dass nur selten („Gewohnheit“ als Kriterium genannt wurde („es klingt
so wie gewohnt“, „es klingt ungewohnt“). Es bleibt dennoch unklar, inwieweit die Frage eine Rolle spielt,
ob der Proband an kopfbezogene Mischungen von Popmusik gewöhnt ist oder nicht.
Zusammenfassung der Ergebnisse aus Abschnitt 4
Die Kommentare, die von den Probanden abgegeben wurden, waren in den meisten Fällen zu sehr auf
die einzelnen Mischungen bezogen, um daraus allgemeine Feststellungen ableiten zu können.
Es konnte aber insgesamt gezeigt werden, dass die vorgestellte Methode der Binauralsynthese
qualitativ einer Kunstkopfaufnahme desselben Schallereignisses gleichen kann. Es zeigte sich
zudem, dass die binaurale Synthese in der vorgestellten Form ausreichend funktioniert, um ein
klanglich und ästhetisch befriedigendes Ergebnis erzielen zu können.
49
4
Fazit
Die in dieser Arbeit vorgestellte Methode der binauralen Synthese auf der Grundlage gemessener
Raumimpulsantworten stellt für den Tonmeister ein wirksames Mittel für eine künstlerisch und ästhetisch
relevante nachträgliche Binauralisierung einer Mehrspurproduktion dar.
Anhand des durchgeführten Hörvergleichs wurden der Einfluss echter binauraler Reflexionsmuster
sowie mehrere Möglichkeiten zur Modifikation binauraler Raumimpulsantworten untersucht und unterschiedliche Mischungen einander gegenübergestellt.
Hierbei zeigte sich, dass Impulsantworten mit echten Reflexionsmustern die Ortung innerhalb der
binauralen Synthese deutlich verbessern. Auch konnte gezeigt werden, dass die Verwendung virtueller
Phantomschallquellen über einer Basis von 60° im vorderen Bereich die Vorne-Lokalisation unterstützt
und damit ein wirksames Mittel zur Bekämpfung von Vorne-Hinten-Vertauschungen darstellt. Schließlich
ließ sich aus den Versuchen ableiten, dass sich mit der Binauralsynthese in vorgestellter Form qualitativ
gleichwertige Mischungen zu Kunstkopfaufnahmen desselben Schallereignisses erstellen lassen.
Eine Wirksamkeit von Frequenzgangkorrekturen auf der Basis der Blauertschen Bänder müsste in
einer weiterführenden Arbeit getrennt von der Verwendung virtueller Phantomschallquellen untersucht
werden. In dieser Arbeit konnte keine Wirksamkeit festgestellt werden.
Weiterführende Anwendungs- und Verbesserungsmöglichkeiten sowie Anknüpfungspunkte für weitere Arbeiten sind so umfangreich, dass wir für dahingehende Betrachtungen auf Kapitel 5 (Appendix)
verweisen möchten.
50
5
Appendix
Im Folgenden möchten wir besonders auf die praktische Umsetzung und die daraus resultierenden
Chancen und Probleme eingehen. Dieses Kapitel richtet sich speziell an Tonmeister, die an einer Umsetzung interessiert sind, bzw. die zu diesem Thema praktisch beisteuern möchten.
Im Rahmen dieser Diplomarbeit haben wir eine Vielzahl an Mischungen mit der in Kapitel 2 vorgestellten Methode erstellt. Einige Aussagen entspringen lediglich unseren dabei gemachten persönlichen
Erfahrungen und bedürfen noch einer wissenschaftlichen Überprüfung. Wir würden uns freuen, wenn
dieses Kapitel als Anreiz für weitere Arbeiten in dieser Richtung dienen oder zur Diskussion anregen
könnte.
5.1
5.1.1
Betrachtungen zur Aufnahme
Hauptmikrofonsysteme
Die nachträgliche Binauralisierung einer Mehrspuraufnahme erfolgt in der vorgestellten Methode in
erster Linie durch die Platzierung der Stützmikrofonsignale. Nur auf diese Weise können einzelnen Schallquellen, z.B. einzelnen Instrumentengruppen, eigene diskrete Richtungen zugewiesen werden. Das traditionelle Konzept, bei einer Aufnahme in erster Linie vom Hauptmikrofonsystem auszugehen, erscheint
daher in unserem Fall als nicht mehr dem Wiedergabesystem angemessen. Der klangliche Vorteil eines
Hauptmikrofonsystems, eine Kombination unterschiedlicher Klangquellen als einen gemeinsamen Klangkörper abzubilden, bleibt aber natürlich weiterhin erhalten. Da bei der ausschließlichen Verwendung von
Stützmikrofonen auch bei der binauralen Simulation immer die Gefahr eines Auseinanderfallens der Mischung besteht [vgl. Ratay 2004], möchten wir empfehlen, traditionelle Hauptmikrofonsysteme bei der
Aufnahme auch dann zu verwenden, wenn über die Erstellung einer binauralen Mischung nachgedacht
wird. Als alternatives oder zusätzliches Hauptmikrofon empfiehlt sich die Verwendung eines Kunstkopfes.
[Ratay 2004] hat gezeigt, dass bei der Kombination aus Kunstkopf- und binauralisierten Stützmikrofonsignalen befriedigende Ergebnisse erzielt werden können.
5.1.2
Aufstellung der Stützmikrofone
Den Stützmikrofonen kommt bei Aufnahmen für binaurale Mischungen eine besondere Bedeutung zu.
Wie in Kapitel 2. (Methode) zum Teil schon beschrieben wurde, sollten diese Mikrofonsignale bestimmte
Forderungen erfüllen:
– Sie sollten trocken sein. Die Folgen von halligen Stützsignalen bei der Binauralisierung wurden
bereits unter 2.4.1 (Eindimensional abgebildete Räume) erläutert.
– Sie sollten die Schallquelle möglichst ausgewogen abbilden. Dies kann evtl. zu dem gewünschten
Anteil an Übersprechen (s.u.) im Widerspruch stehen.
– Im besten Fall sollte zudem eine sehr große Anzahl an Stützmikrofonsignalen vorhanden
sein, möglichst sogar für jede Schallquelle einzeln, was eine besonders plastische und gestaffelte
Platzierung der Schallquellen ermöglicht. Sobald mehrere Schallquellen in einem Mikrofonsignal
enthalten sind, können diese in der Mischung zwangsweise nur gemeinsam an einem Punkt platziert
werden.
– Ist es aufgrund der großen Anzahl an Mikrofonen möglich, jede Schallquelle (beispielsweise jedes
Instrument in einem Streichorchester) einzeln zu positionieren, so ist ein möglichst geringer Anteil
an Übersprechen in den Signalen wünschenswert, da nur so eine unabhängige Positionierung gewährleistet werden kann. Ist dagegen nur eine geringe Anzahl an Mikrofonen vorhanden, so kann
Übersprechen zwischen den Signalen durch Phantomschallquellen auch zu einer flächigeren Abbildung führen und damit ein Auseinanderfallen der Mischung verhindern. Diese Entscheidung sollte
vom Tonmeister daher unbedingt vorab getroffen werden.
51
Die Halligkeit der Stützmikrofonsignale sowie der Anteil an Übersprechen in den einzelnen Signalen wird
schon durch die Wahl des Aufnahmeraumes wesentlich beeinflusst. Hier sollten unserer Meinung nach aber
nach wie vor musikalische und ästhetische Gesichtspunkte ausschlaggebend sein. Eine gut funktionierende
binaurale Simulation, die aber aufgrund der Räumlichkeit im Widerspruch mit dem musikalischen Duktus
stünde, wäre lediglich als Experiment annehmbar.
5.2
5.2.1
Betrachtungen zur Mischung
Platzierung von Stereosignalen
In vielen Fällen liegt für eine zu binauralisierende Schallquelle ein Stereosignal vor, z.B. bei einer
Stereo-Klavierstütze. In Kapitel 2.4 (Probleme der Methode) ist in dieser Hinsicht bereits ausgiebig über
virtuelle Phantomschallquellen gesprochen worden, wobei die dort beschriebenen Probleme durch das
vorgestellte Resampling der betroffenen Impulsantworten behoben werden können.
Bei der Platzierung von Stereosignalen in der binauralen Mischung ist darüber hinaus auf zwei Dinge
zu achten:
– Verkleinerte Wiedergabebasis
Je nach Korrelation der beiden Einzelkanäle wird die Wiedergabebasis der virtuellen Lautsprecher
nicht komplett ausgenutzt, d.h. es entstehen ausschließlich Phantomschallquellen. Werden die beiden Kanäle des Stereosignals nun an zwei Panning Spots binaural platziert, die den ursprünglichen
Orten der Mikrofone im Aufnahmeraum entsprächen, so erscheint dieses aufgrund der verkleinerten virtuellen Wiedergabebasis zu schmal und die Quelle damit zu klein. Tatsächlich sollte der
virtuelle Abstand der beiden Panning Spots für links und rechts also den 60° einer gewöhnlichen
Lautsprecherbasis entsprechen.
Besonders tückisch, weil unerwartet, wirkt sich diese Tatsache bei Übersprechen aus. Betrachten
wir zur Erläuterung das in 2.4.3 (Zusammenfallen des Raumes durch Spiegelung der gemessenen
Impulsantworten) erwähnte Beispiel der Flöten- und Oboenstütze innerhalb einer mehrspurigen
Orchesteraufnahme. Durch Übersprechen erscheinen Flöte 1 und Oboe 1 bei der Wiedergabe über
eine virtuelle Lautsprecherbasis als Phantomschallquellen. Werden die beiden Lautsprecher nun
an die Panning Spots gesetzt, die der Position der Flöten bzw. der Oboen im Aufnahmeraum
entsprächen, so erscheinen sie aufgrund dieser kleineren Basis zur Mitte hin gestaucht.
– Seitwärtige Platzierung
Eine Abbildung von Phantomschallquellen wird immer schwieriger, je weiter sich der Mittelpunkt
der virtuellen Lautsprecherbasis von ϕ = 0° in der Horizontalebene entfernt, da bei seitwärtiger
Platzierung weniger auswertbare interaurale Laufzeit- und Pegeldifferenzen vorhanden sind. Dieses
Problem besteht in ähnlicher Form auch bei 5.1 Surround, wo es nur schwer möglich ist, Phantomschallquellen seitlich zu positionieren. Die binaurale Simulation hat dabei aber zwei Vorteile:
Zum einen ist es möglich, die virtuellen Lautsprecher tatsächlich zu verschieben, so dass zumindest
über einen größeren Bereich Phantomschallquellen abbildbar bleiben, zum anderen ist eine Quelle
natürlich auch bei ϕ = 90° deutlich zu orten, wenn eine entsprechende BRIR ausgewählt wird. In
diesem Falle wäre nur die Bildung von Phantomschallquellen nicht möglich, und man müsste über
eine klanglich befriedigende Platzierung des jeweils zweiten Kanals nachdenken.
52
5.2.2
Platzierung von Hauptmikrofonsignalen
Wie schon mehrfach erwähnt, stellt die Positionierung von halligen Signalen bei der vorgestellten Methode ein Problem dar (s. 2.4.1 sowie 5.1.2). Da bei einem raumbezogenen Hauptmikrofon zudem keine
binauralen Richtungsinformationen über die an der Zusammensetzung des Signals beteiligten Einzelquellen vorhanden sind, lässt sich ein solches erfahrungsgemäß nicht platzieren, ohne dabei die binaurale
Simulation zu beeinträchtigen. Daher stellt sich die Frage, wie mit raumbezogenen Hauptmikrofonsignalen
in der binauralen Mischung umzugehen ist.
Häufig kann es je nach Anzahl und Qualität der Stützmikrofone eine Möglichkeit sein, ohne Verwendung solcher Signale zu arbeiten. Bei Aufnahmen, die auf traditionelle raumbezogene Mischungen
ausgelegt wurden, werden jene entsprechenden Voraussetzungen aber nur selten erfüllt. In unseren eigenen Mischversuchen kristallisierte sich als klanglich befriedigendste Positionierung die Wiedergabe über
ein virtuelles Lautsprecherpaar mit einer Basis von 60° heraus. Dabei wirken die binaural platzierten
Stützen gewissermaßen als Ergänzung für die fehlenden binauralen Richtungsinformationen des Hauptmikrofonsignals. Die Ortung verschlechtert sich dennoch erfahrungsgemäß durch die Verwendung des
Hauptmikrofonsignals, wobei dies je nach Qualität der Stützmikrofonsignale trotzdem der klanglich befriedigendste Kompromiss sein kann.
Die Verwendung von raumbezogenen Hauptmikrofonsystemen in der binauralen Synthese müsste
gründlich in einer weitergehenden Arbeit untersucht werden.
5.2.3
Platzierung von Raummikrofonsignalen
Wird ein Hauptmikrofon verwendet, so kann dies zu Konflikten zwischen der Räumlichkeit des Aufnahmeund des Messraumes führen. Einen Ausweg bietet hierbei die Verwendung von Raummikrofonen. Bei entsprechender Verkürzung der BRIRs um die Nachhallfahne ist es möglich, sich dem Aufnahmeraum über
die Positionierung von Raummikrofonsignalen klanglich anzunähern. Im Hörvergleich zeigte sich, dass
binaurale Reflexionsmuster zur Außer-Kopf-Lokalisation wesentlich beitragen (s. 3.2.1). Daher empfehlen wir, bei einer Verkürzung der BRIRs unbedingt die Beibehaltung des binauralen Reflexionsmusters.
Zumindest ein Konflikt zwischen den frühen Reflexionen des Aufnahmeraumes und des Messraumes wird
also unvermeidbar bleiben. Grundsätzlich ist es naheliegend, bei der Positionierung von Raummikrofonsignalen die Panning Spots so zu wählen, dass sie den Positionen der Mikrofone im Aufnahmeraum
entsprechen. Auf diese Weise kann eine korrekte Abbildung der Raumgeometrie gewährleistet werden,
und widersprüchliche Richtungsinformationen aufgrund von falschen Laufzeiten werden vermieden.
5.2.4
Folgen von Übersprechen
Unter 5.2.1 (Platzierung von Stereosignalen) ist bereits angesprochen worden, dass Übersprechen in
Signalen zu einer scheinbaren Verkleinerung der Quellen führen kann, wenn dies vom Tonmeister nicht
durch Spreizung der beteiligten virtuellen Lautsprecher kompensiert wird.
Wie bei Mischungen für raumbezogene Wiedergabesysteme kann es bei starkem Übersprechen aber
auch zu widersprüchlichen Richtungsinformationen bei der räumlichen Verteilung der Einzelquellen kommen. So wäre es beispielsweise möglich, in einer Orchesteraufnahme aufgrund ihrer instrumentenspezifischen Abstrahlcharakteristik ein starkes Übersprechen der Blechbläser im Signal der Violoncellostütze
zu erhalten. Bei der binauralen Positionierung der Violoncellogruppe würden die einer einzelnen Trompete zuzuordnenden Signalanteile sowohl aus der binauralen Position der Trompete als auch aus der der
Violloncellogruppe erklingen. Dies könnte eine erhebliche Störung der binauralen Simulation bewirken.
Um die Geometrie der Aufnahmesituation laufzeitrichtig abzubilden, kann es hilfreich sein, bei der
Verteilung der Einzelsignale nicht von den Positionen der zugrunde liegenden Schallquellen, sondern von
den Positionen der Mikrofone auszugehen. Entsprechend sollten laufzeitrichtige BRIRs verwendet oder
die Laufzeit durch ein nachträgliches Delay angeglichen werden (vgl. hierzu 2.2, Erfassung und Sortierung
der Messdaten).
53
Darüber hinaus lassen Intensität und Ort des Übersprechens auch Rückschlüsse über die Geometrie
des Aufnahmeraumes zu. Inwieweit diese Informationen vom Gehör bei einer Binauralisierung in der vorgestellten Form ausgewertet werden können, wäre Aufgabe einer weiterführenden Arbeit. Möglicherweise
wäre dies sogar ein Hinweis darauf, dass Aufnahme- und Messraum eine ähnliche Geometrie aufweisen
sollten.
5.2.5
Einstellung der Distanz
Die Wahrnehmung von Nähe und Distanz einer Schallquelle ist ein psychoakustisches Phänomen,
das sehr eng mit der Struktur der Reflexionen und des Nachhalls sowie in besonderem Maße mit deren
Verhältnis zum Direktschall verknüpft ist. Darüber hinaus spielen bei sehr großen Entfernungen auch
Dissipationseffekte der Luft eine Rolle, die sich in Form einer leichten Dämpfung zu hohen Frequenzen hin
bemerkbar machen [vgl. Meyer 1999]. Im Falle der binauralen Mischung stehen uns mehrere Möglichkeiten
zur Verfügung, um die wahrgenommene Distanz einer Schallquelle zu beeinflussen.
Wie bereits erwähnt, wurden Überlegungen zur Distanzwahrnehmung schon bei der Messung der
BRIRs berücksichtigt. Darum liegen uns die Impulsantworten zu jeder Richtung prinzipiell für mehrere
gemessene Distanzen vor. Damit ist es also schon durch die Auswahl einer entsprechenden Impulsantwort
möglich, die Quelle aus einer eher großen oder eher kleinen Entfernung erklingen zu lassen. Dennoch
wird es in vielen Fällen wünschenswert sein, die Entfernung einer Schallquelle stufenlos einstellbar zu
machen. Aus der Tatsache, dass eine kürzere Distanz zur Schallquelle nach dem 1/r-Gesetz in erster
Linie eine Anhebung des Direktschall-Pegels gegenüber dem konstanten Diffusschall-Anteil bedeutet, lässt
sich umgekehrt schlussfolgern, dass das tatsächliche Verhältnis zwischen Direktschall und Diffusschall
maßgeblich für die wahrgenommene Distanz verantwortlich ist.
Dieses Verhältnis zu beeinflussen ist also – wenn auch in gewissen Grenzen – gleichbedeutend mit
einer Veränderung der wahrgenommenen Distanz.
5.2.6
Zusätzlicher Nachhall
Um noch mehr Freiheiten bei der klanglichen Gestaltung zu erhalten, kann an Stelle des diffusen
Nachhalls der BRIR auch ein gewöhnlicher künstlicher Hall oder Faltungshall in die Mischung integriert
werden. Es ist dabei jedoch unbedingt darauf zu achten, dass lediglich diffuser Nachhall zugemischt
wird. Eventuelle zusätzliche frühe Reflexionen würden durch ihre nicht-binaurale Beschaffenheit und ihre
zeitlich verschiedene Struktur das vorgegebene binaurale Reflexionsmuster beeinträchtigen und somit dem
natürlichen Raumeindruck und der Lokalisierbarkeit der Quellen entgegenwirken. Eine diffuse Hallfahne
beeinträchtigt dagegen die Lokalisierbarkeit der Schallquellen nicht und kann zudem einem natürlicheren
Raumeindruck zuträglich sein.
Weiterhin ist zu bemerken, dass eine Binauralisierung des beigemischten, rein diffusen Nachhalls nicht
erforderlich ist. Wenn dieser eine hohe Dekorrelation zwischen linkem und rechtem Kanal aufweist, so ist
er aus keiner bestimmten Richtung ortbar. Die Beaufschlagung des Nachhalls mit einer oder mehreren
HRTFs wäre dagegen wiederum gleichbedeutend mit der Zuweisung einer Richtung, und dies stünde der
Natur eines nicht ortbaren, diffusen Nachhalls entgegen.
5.2.7
Bassmanagement: virtueller Subwoofer
Die verwendeten BRIRs erstrecken sich mit einer Bandbreite von 50 Hz bis 18 kHz zwar über einen
ausreichend großen Frequenzbereich, jedoch hat sich aus der Erfahrung gezeigt, dass die Binauralsynthese
bei all ihren Vorzügen doch gerade im Tiefbassbereich manch effektvolles Klangerlebnis zunichte machen
kann.
Besonders problematisch erweist sich dies bei Bassinstrumenten, deren klanglicher Charakter maßgeblich für den Gesamtklang einer Mischung verantwortlich ist. Eine Bassdrum beispielsweise klingt nach
der Faltung mit einer BRIR nicht mehr annähernd so druckvoll wie zuvor, sondern scheint ihre ganze
54
Kraft verloren zu haben. Auch ein Kontrabass ist hiernach nicht mehr in der Lage, ein ausreichendes
Fundament für den Orchesterklang zu liefern. Er wirkt schwach und „verwaschen“, auch dann, wenn sein
Grundton oberhalb von 50 Hz in dem Bereich liegt, der durch die BRIR noch übertragen wird. Dennoch
möchte man in manchen Fällen nicht auf die Binauralisierung der Bassinstrumente verzichten, gerade
wenn diese nicht ausschließlich tiefe Frequenzen erzeugen. Die Tatsache, dass sich für die Ortung von
Schallsignalen vorwiegend Frequenzen verantwortlich zeichnen, die erst in solchen Bereichen liegen, in
denen Abschattungseffekte an Kopf und Schulter bereits zum Tragen kommen, kann bei diesem Problem
Abhilfe schaffen.
Damit eröffnet sich die Möglichkeit, Signale in unterschiedlichen Frequenzbändern getrennt zu behandeln und auf diesem Wege nur die für die Lokalisation verantwortlichen Frequenzbereiche, die deutlich
oberhalb von 150 Hz gelegen sind, zu binauralisieren, während tiefe Frequenzen – auch bis unterhalb der
50 Hz-Messgrenze der BRIRs – unverändert passieren können.
5.2.8
Parallelen und Gegensätze zwischen raum- und kopfbezogenen Mischungen
Raumbezogene Mischung
Kopfbezogene Mischung
Panning
Auswahl der BRIR
Anheben des Stützmikrofonpegels
Anheben des Pegels der Einzelquelle und Verringerung des Anteils der frühen Reflexionen
innerhalb der BRIR (kleinere Distanz)
Anheben des Pegels der Raummikrofone oder Absenken des Direktsignals (der HRTF) innerdes Hauptmikrofonsystems
halb aller BRIRs
Auswahl des Aufnahmeraumes
Auswahl des Messraumes (aus einer Datenbank) und des Aufnahmeraumes
Hinzufügen von Hall
Austauschen oder Anheben der Nachhallfahne
innerhalb der BRIR oder zusätzliche Verhallung
Der Ort eines Eingriffs innerhalb der Signal- Der Ort eines Eingriffs innerhalb der Sikette wirkt sich nicht auf die Funktionalität gnalkette wirkt sich auf die Funktionalität
der raumbezogenen Wiedergabe aus
der kopfbezogenen Wiedergabe aus, wenn er
nichtlinear oder zeitvariant ist
Frequenzgangkorrekturen wirken sich nicht Starke Frequenzgangkorrekturen können sich
auf die Funktionalität der raumbezogenen auf die Funktionalität der kopfbezogenen WieWiedergabe aus
dergabe auswirken, wenn sie der Ortung von
Schallquellen in bestimmten Richtungen entgegenwirken
Tabelle 4: Parallelen und Gegensätze zwischen raum- und kopfbezogenen Mischungen
5.2.9
Überlegungen zu Rock/Pop/Jazz
Alle bisher angestellten Überlegungen bezogen sich besonders auf das bei Aufnahmen klassischer
Musik für gewöhnlich angewendete System Hauptmikrofon/Stützmikrofone. Da bei U-Musik die Herangehensweise schon bei der Aufnahme im Allgemeinen eine andere ist, stellen sich auch bei der Mischung
einige spezielle Fragen.
55
Zunächst einmal ist anzumerken, dass die Konzertsituation in weiten Teilen der U-Musik (mit Ausnahme insbesondere des Jazz) nur bedingt dazu geeignet ist, als Vorlage für eine binaurale „Nachbildung„
zu dienen. Zudem könnte man feststellen, dass besonders bei Rock- und Popmusik die fertige Mischung
eines Songs als das eigentliche, gültige Kunstwerk angesehen werden kann. In vielen Fällen ist es darüber
hinaus sogar außerordentlich schwierig, Unterschiede zwischen Arrangement, Songwriting und künstlerischer Mischung des Titels auszumachen. Anders als bei klassischer Musik, wo (in den meisten Fällen) die
binaural erlebte Konzertsituation den Maßstab bilden kann, ist aufgrund der Verbreitung raumbezogener
Wiedergabeverfahren die U-Musik somit eine überwiegend zweidimensionale Kunst. Jede vorgenommene
Binauralisierung wird hier aus diesem Grund besonders auffallen.
Insbesondere ergibt sich daraus aber auch ein Problem im Hinblick auf die Räumlichkeit. Die vielfach
verwendeten Kombinationen verschiedener, auf die Schallquellen angepasster Hallprogramme müssten
binaural in eine Kombination unterschiedlicher Räumlichkeiten transferiert werden. Inwieweit dies die
binaurale Simulation zerstören könnte, müsste untersucht werden. Unter Umständen wäre es ausreichend,
in einem übergeordneten Raum am Ort der zugeordneten Schallquellen eindimensionale künstliche Räume
über eine kleine virtuelle Lautsprecherbasis zu platzieren. Dementsprechend sollten Delayeffekte, ähnlich
dem Surround-Delay einiger kommerzieller Plugins, durch frei positionierbare Spiegelquellen abgebildet
werden.
Insgesamt bietet die Binauralisierung aber gerade für Mischungen von U-Musik eine große Chance, da
hier traditionell ein künstlerisch freier und zum Teil experimenteller Umgang mit der Technik vorhanden
ist. Nicht zuletzt wird ein großer Teil der U-Musik ohnehin überwiegend mit Kopfhörern konsumiert.
Auch Kombinationen aus In-Kopf- und Außer-Kopf-Lokalisation wären im Bereich der U-Musik so
besonders gut denkbar (vgl. 5.5.4 und 5.5.5).
5.3
Tipps für die Einbindung in die DAW
Die praktische Realisierung von Musikmischungen mit Hilfe von BRIRs verlangt in vielen Fällen den
Aufbau sehr komplexer DAW-Projekte. Solange noch kein eigens auf diese Anwendung zugeschnittenes
Plugin existiert, erfordert insbesondere die systematische Realisierung einiger der bereits beschriebenen
Optimierungsansätze, wie zum Beispiel das Ersetzen einer Einzelschallquelle durch eine Phantomschallquelle oder die stufenlose Einstellung der Distanz, einen sehr hohen – und nicht immer praktikabel erscheinenden – Aufwand. Zur Gewährleistung einer flexiblen Arbeitsweise ist es daher umso mehr notwendig,
auf einen übersichtlichen Aufbau der Projekte zu achten.
Im Folgenden sollen einige praktische Schritte beschrieben werden, die dabei helfen können, die konkrete Umsetzung von Mischungen in einer DAW-Umgebung zu erleichtern.
Busse
Häufig empfiehlt es sich, die Faltung mit einer BRIR nicht unmittelbar in dem zu bearbeitenden
Kanal durchzuführen, sondern für die Auralisation nachgeschaltete Busse bereitzuhalten. Insbesondere
bei Aufnahmen mit sehr vielen Spuren, bei denen unter Umständen auch mehrere Quellen aus ein und
derselben Richtung abgebildet werden sollen, kann durch Verwendung von gemeinsamen Bussen die Zahl
der Faltungen reduziert und die Übersichtlichkeit erhöht werden. In diesem Fall erfolgen im ursprünglichen
Kanal lediglich die reguläre Klangbearbeitung und die Einstellung des Pegels. Die Auswahl einer Richtung
geschieht durch die Aufschaltung auf den jeweiligen Bus.
Phantomschallquellen
Besonders bei der Erzeugung virtueller Phantomschallquellen entstehen durch die Verwendung von
Bussen große Vorteile. In den häufigsten Fällen ist es erforderlich, mehr als nur eine Schallquelle im
vorderen Bereich zu platzieren. Hier genügt es, für all diese einen gemeinsamen Stereo-Bus zu verwenden,
der seinerseits einer virtuellen Stereobasis zugeführt wird. Alle Schallquellen, die innerhalb dieser Basis
(beispielsweise +/- 30°) abgebildet werden sollen, werden gemeinsam auf diesen Bus aufgeschaltet. Die
56
Positionierung innerhalb der Basis erfolgt dann im jeweiligen Kanal mit Hilfe von Pegel-Panning. Dies
reduziert die Zahl der Faltungen erheblich und ermöglicht ein weitaus übersichtlicheres Arbeiten.
Mit Hilfe des Pegel-Pannings auf einen solchen nachgeordneten Bus lassen sich auch ohne eine Interpolation zwischen den BRIRs einfache automatisierte Bewegungseffekte realisieren.
Distanzeinstellung
Um das für die Distanzwahrnehmung ausschlaggebende Verhältnis zwischen Direktschall und Diffusschall einstellen zu können, ist es erforderlich, die zu verwendenden BRIRs in ihre Einzelkomponenten zu
unterteilen. Solange keine Plugin-Lösung existiert, mit deren Hilfe die Komponenten der BRIR automatisch verwaltet werden können, muss dieser Schritt noch „von Hand“ in einem separaten Projekt erfolgen.
Das Signal, dessen Distanz eingestellt werden soll, wird sodann zwei getrennten Kanälen oder Bussen
zugeführt, in denen die Faltungen einzeln vorgenommen werden. Im einen Kanal erfolgt die Faltung mit
der HRTF (Direktsignal), im anderen die Faltung mit dem Diffusschall-Anteil (Raumanteil der BRIR).
Bei der anschließenden Aufsummierung kann das Pegelverhältnis zwischen den beiden Signalen beliebig
angepasst und damit die gewünschte Distanz eingestellt werden. Hierbei ist jedoch unbedingt auf die
korrekte Zeitverzögerung der Reflexionen gegenüber dem Direktschall zu achten.
Zur Einstellung der Distanz genügt es in der Regel, die BRIR in die zwei genannten Bestandteile zu
unterteilen. Möchte man jedoch zusätzlich auch den Pegel der Hallfahne getrennt einstellen oder diese
gar durch eine andere Hallfahne ersetzen, so kann diese Prozedur natürlich auch auf drei Kanäle oder
Busse ausgeweitet werden.
Virtueller Subwoofer
Auch der bereits erwähnte Ansatz der frequenzbandabhängigen Bearbeitung eines Signals zur Verbesserung der Basswiedergabe lässt sich praktisch umsetzen. Beispielsweise kann hierzu ein Aux-Bus die
Rolle eines „virtuellen LFE-Kanals“ übernehmen. Auf diesen Bus werden Signale aus all den Kanälen
ausgespielt, die wichtige, tieffrequente Komponenten enthalten. Über ein phasenlineares Tiefpass-Filter
werden die Bassanteile dieser Signale direkt der Summe zugeführt.
In den entsprechenden Kanälen dagegen sorgt jeweils ein komplementäres Hochpass-Filter dafür,
dass die Signale von eben diesen tiefen Anteilen befreit werden und lediglich die für die Lokalisation
maßgeblichen mittleren und hohen Frequenzanteile der Auralisation zugeführt werden.
Unbedingt sind dabei jedoch die unterschiedlichen Laufzeiten der Signalwege zu beachten. Um bei der
Summierung Auslöschungen im Übernahmebereich zu vermeiden, muss die Latenz, die aufgrund des minimalen Einschwingvorgangs der Impulsantwort bei der Faltung der Mittel-/Hochton-Signale hervorgerufen
wird, durch eine entsprechende Verzögerung des besagten LFE-Kanals ausgeglichen werden.
5.4
Design eines VST Plugins
Es wäre wünschenswert, die oben genannten Hinweise zur Einbindung in die DAW in ein VST-Plugin
zu integrieren. Dieses könnte als ein einfaches binaurales Panning-Tool funktionieren, ginge dabei aber in
seiner Funktionalität deutlich über ein gewöhnliches Faltungs-Plugin hinaus. Es sollte gleichzeitig sowohl
eine differenzierte Auswahl und Modifikation der Impulsantworten als auch umfangreiche Funktionen wie
das Erzeugen virtueller Phantomschallquellen auf einfachem Wege ermöglichen, ohne dass dabei noch
eine komplizierte Signalführung in der DAW erforderlich würde.
Unter den in unseren bisherigen Versuchen verwendeten Plugins seien zwei besonders hervorgehoben:
Das Plugin SIR (Super Impulse Response) von Christian Knufinke, das sowohl in einer nicht-kommerziellen
als auch einer kommerziellen Version (in erweitertem Umfang) zur Verfügung steht, erwies sich als ein
besonders geeignetes Werkzeug für die Arbeit mit binauralen Raumimpulsantworten. Durch die einfache
und direkte Auswahl von Impulsantworten sowie einige Möglichkeiten zu deren gezielter Modifikation
konnte mit Hilfe dieses Plugins das Vorgehen in vielen Fällen erheblich vereinfacht werden.
57
Abbildung 39: GUI des VST-Plugin SIR
Daneben wurde in Zusammenarbeit mit dem Programmierer Christian Budde ein Plugin entwickelt,
das bereits die stufenlose Interpolation zwischen den gemessenen BRIRs erlaubt. In diesem PanningPlugin, das als Version für trockene HRTFs bereits unter dem Namen „hrtf3d“ existiert, ist die Auswahl
der Richtung durch eine grafische Darstellung gelöst, in welcher ein räumlich abgebildeter Kopf, der die
Blickrichtung des Hörers symbolisiert, mit Hilfe der Maus nach allen Freiheitsgraden gedreht werden
kann.
Abbildung 40: GUI des VST-Plugins HRTF3d
5.4.1
Entwurf eines idealen Plugins
Im Folgenden soll das Konzept für ein „ideales“ Plugin dargelegt werden, wie es nach unserer Vorstellung und unter Berücksichtigung der aus der vorliegenden Arbeit gewonnenen Erkenntnisse einer
Verwendung binauraler Raumimpulsantworten in Musikmischungen bestmöglich gerecht wird.
Ein solches ideales Plugin sollte
– eine übersichtliche Auswahl der Impulsantwort-Datenbanken, getrennt nach drei Komponenten
(HRTF, Reflexionen, Hallfahnen), erlauben.
– eine intuitive Auswahl der Richtung ermöglichen, wahlweise stufenlos interpoliert oder entsprechend
der realen Messungen gerastert.
– eine grafisch anschauliche Einstellmöglichkeit der Pegelverhältnisse zwischen Direktsignal, frühen
Reflexionen und Nachhall bieten (z.B. drei einzelne Fader oder eine Hüllkurve).
– Impulsantworten für die rechte Halbkugel durch Spiegelung und Resampling automatisch gewinnen.
58
– bei Auswahl von Richtungen zwischen +30° und -30° Schallquellen automatisch durch virtuelle
Phantomschallquellen ersetzen.
– einen „virtuellen LFE-Kanal“ ermöglichen, d.h. tiefe Frequenzen bei Bedarf von der Auralisation
ausnehmen.
Konzept eines idealen Plugins
Das Plugin sollte derart ausgelegt sein, dass es stets ein Minimum an Ressourcen benötigte und somit die gleichzeitige Verwendung zahlreicher Instanzen erlaubte. Dies wäre von besonderer Bedeutung,
da aufwändige binaurale Musikmischungen in der Praxis ohne Weiteres eine getrennte Auralisation in
20 oder mehr Kanälen gleichzeitig erforderlich machen können und dabei dennoch stets eine Bearbeitungsmöglichkeit in Echtzeit verlangen. Darum sollte das Plugin in seiner inneren Struktur so konzipiert
sein, dass sein zentraler Echtzeit-relevanter Bestandteil in lediglich einer schnellen Faltung besteht. Diese
Faltung ist der einzige Vorgang, der real in jedem Kanal durchgeführt werden müsste.
Alle weiteren Funktionen sind so beschaffen, dass sie auf einmalige Berechnungen reduziert werden
können, die direkt in die verwendete Impulsantwort mit eingehen. Jede Änderung eines Parameters (z.B.
Richtung, Pegelverhältnis, Erzeugen einer virtuellen Phantomschallquelle) hat demnach eine Neuberechnung der Impulsantwort zur Folge. Diese Berechnung könnte demnach im Hintergrund erfolgen, ohne
dabei die Echtzeitwiedergabe einzuschränken.
Im Großen betrachtet bestünde ein Plugin also aus folgenden Bereichen:
Abbildung 41: Konzept eines Plugins
Konfektionierung der Impulsantwort
Eine wichtige Voraussetzung für die flexible Arbeit mit BRIRs ist die Möglichkeit, Direktschall, Reflexionen und Nachhall getrennt behandeln zu können. Daher sollten die Dateien aller gemessenen Datensätze jeweils bereits in dieser dreigeteilten Form vorliegen. Eine Rekombination der Bestandteile erfolgte
dann durch das Plugin entsprechend der gewünschten Richtung und der übrigen Einstellungen. Dies
ermöglichte in erster Linie die pegelmäßige Anpassung der Komponenten untereinander und erlaubte
damit sowohl Einstellungen der Räumlichkeit unter klanglich-ästhetischen Gesichtspunkten als auch eine
Veränderung der gewünschten Distanz.
Außerdem ermöglichte diese Struktur, beliebige Kombinationen aus unterschiedlichen Messreihen vorzunehmen. Beispielsweise könnte das Reflexionsmuster der im Brahmssaal aus einer Distanz von 4 m
gemessenen BRIRs mit dem Nachhall einer Kirche zusammengesetzt werden.
59
Da unsere Impulsantworten stets nur für die linke Hälfte eines jeden Raumes vorliegen, müsste abhängig von der gewählten Richtung eine Unterscheidung folgen:
Läge die Auswahl in der linken Raumhälfte, so erfolgte zunächst keine weitere Veränderung. Läge
sie dagegen in der rechten Raumhälfte, so würde eine Spiegelung der gegenüberliegenden Impulsantwort
vorgenommen. Es erfolgten automatisch sowohl die Vertauschung des linken und rechten Kanals als auch
das Resampling auf 99% für die notwendige Dekorrelation. Das durch das Resampling bewirkte minimal
frühere Einsetzen des Impulses würde mit Hilfe eines Verzögerungsgliedes ∆t ausgeglichen.
Im Falle, dass eine Quelle in den Bereich zwischen +/-30° fiele, könnte das Plugin diese automatisch
durch eine Phantomschallquelle ersetzen. Dies geschähe dadurch, dass in diesem Fall eine Impulsantwort
erzeugt würde, die sowohl den linken als auch den rechten Lautsprecher einer virtuellen Basis in sich
vereinte. Dazu würden unter Beibehaltung der BRIR für die Basis der linke und der gespiegelte rechte
Strang über eine pegelmäßige Gewichtung ∆L zusammengeführt. Diese Gewichtung gliche dabei einem
Pegel-Panning, mit dem die Quelle innerhalb der vorderen oder hinteren Basis positioniert würde. In
diesem Fall diente die in der Benutzeroberfläche ausgewählte Position der Quelle als Eingangs-Wert für
das Pegel-Panning.
Auch die bereits erläuterte zuschaltbare LFE-Funktion ließe sich vollständig in die Impulsantwort
integrieren. Hierfür erfolgte zunächst die Hochpassfilterung der Impulsantwort bei einer Grenzfrequenz
fx . Dies bewirkte, dass die eigentliche BRIR keine tieffrequenten Komponenten des Audiosignals mehr
übertrüge. Um eine unangetastete Übertragung dieser tiefen Frequenzen zu erreichen, würde der Impulsantwort lediglich ein komplementär Tiefpass-gefilterter Dirac-Stoß phasenrichtig zugemischt. Eine
pegelmäßige Gewichtung sowie die freie Wahl der Grenzfrequenz erlaubten eine differenzierte Ausbalancierung der tiefen Frequenzen.
Das Flussdiagramm in Abbildung 42 veranschaulicht den gesamten Aufbau eines solchen Plugins sowie
der Impulsantwort-Konfektionierung.
Grafische Benutzeroberfläche (GUI)
Die Benutzeroberfläche sollte in erster Linie zwei Dinge ermöglichen:
– Eine einfache Auswahl der BRIR-Datensätze (verschiedene Messräume, verschiedene Distanzen,
beliebige Kombinationsmöglichkeiten)
– Die intuitive Einstellung der Richtung in der Horizontalebene – Denkbar wäre eine Kreisdarstellung, in der alle gemessenen Positionen angezeigt werden und durch Anklicken ausgewählt werden
könnten. Im Falle, dass eine Interpolation zwischen den gemessenen Positionen realisiert würde,
könnte auf eine Rasterung verzichtet werden.
Darüber hinaus wäre eine intuitive Darstellung aller weiteren Parameter wünschenswert:
– Je ein Pegelsteller für Direktsignal, frühe Reflexionen und Nachhall
– Modus-Wahlschalter: Automatische Verwendung virtueller Phantomschallquellen
– Ein Schalter für den „virtuellen LFE-Kanal“ – in diesem Fall: Wahl der Grenzfrequenz sowie Einstellmöglichkeit des Pegelverhältnisses zwischen Bass und Mittel-/Hochtonbereich.
60
Abbildung 42: Funktionsweise eines möglichen Plugins
61
5.5
Betrachtungen zum Hörbild / Ästhetische Betrachtungen
Zu Beginn dieses Abschnittes sei angemerkt, dass unserer Erfahrung nach die Abhörlautstärke ein
wesentlicher Faktor bei der Hervorrufung des angestrebten Hörbildes im Falle der binauralen Synthese ist.
Die binaurale Simulation scheint der Realität dann am nächsten zu sein, wenn die virtuellen Lautsprecher
in einer Lautstärke abstrahlen, die der wahrgenommenen Lautstärke der abzubildenden Schallquelle in
der Realität entspricht.
Je nach Material birgt dies für den Tonmeister natürlich die Gefahr, sich über einen zu langen Zeitraum
einem erhöhten Pegel auszusetzen.
5.5.1
Auswirkungen auf die Wahrnehmung des Tonsatzes
Die Beschäftigung mit Ortung und Räumlichkeit bei der Komposition von Musik ist alles andere als
neu.
Als plakative Beispiele für im Werk angelegte Quellpositionierungen seien etwa die Mehrchörigkeit
in der Musik Corellis, die klassische Ausnutzung räumlicher Effekte zwischen den Violingruppen bei
deutscher Orchesteraufstellung [vgl. Meyer 1999, S.213] oder entsprechende Partituranweisungen Wagners
genannt. Die Räumlichkeit ist schon aus programmatischen Gründen (etwa der Unterscheidung zwischen
weltlicher und geistlicher Musik) in der Musikgeschichte traditionell eng mit dem Duktus der Musik
verwoben.
Vor diesem Hintergrund wird deutlich, dass nur die räumlich exakte Reproduktion der Darbietung
dem innewohnenden musikalischen Gehalt gerecht werden kann. Im Falle der binauralen Abbildung eines
musizierenden Ensembles wird dieser Zugewinn besonders deutlich: Da hier in den meisten Fällen den einzelnen Schallquellen bestimmte Funktionen innerhalb des Tonsatzes zugewiesen sind (z.B. die Ausführung
von Spannungs-, Leit- oder Grundtönen oder das Übernehmen von Melodie-, Mittel- oder Bassstimmen),
wirkt sich die Instrumentierung ortsbestimmend auf den Tonsatz aus. Man kann im Falle einer Binauralisierung also von einer deutlichen Verbesserung der Durchsichtigkeit des Tonsatzes sprechen. Durch
eine entsprechende Auswahl geeigneter BRIRs ist es zudem möglich, das in der jeweiligen Komposition
angelegte Konzept von Schmelz- oder Spaltklang zu unterstützen.
Ist die Rolle der Einzelquellen innerhalb des Tonsatzes klar definiert (wie etwa bei den meisten klassischen und romantischen Orchesterwerken), so ergibt sich aus der Positionierung in der binauralen Simulation zwingend auch eine Positionierung musikalischer Funktion. Dies sollte bei der binauralen Synthese
unserer Ansicht nach immer bedacht werden.
Sollen sich die Positionen einer oder mehrerer binauralisierter Quellen über der Zeit ändern, so sollte es
der Anspruch des Tonmeisters sein, den Veränderungen der Musik über der Zeit (z.B. Kadenzen, Phrasen
oder formale Abschnitte) gerecht zu werden und ihnen nicht entgegenzusteuern. Für die Verwendung
bewegter Quellen ohne Rücksichtnahme auf solche grundlegenden Zusammenhänge gibt es im Bereich
von 5.1 Surround eine ausreichende Menge an Beispielen, auf die hier aber nicht näher eingegangen
werden soll.
Bei der Beachtung dieser musikalischen Gegebenheiten ist es unserer Ansicht nach aber durchaus möglich, eine legitime räumliche Interpretation eines Werkes in Form einer binauralen Synthese zu erschaffen.
5.5.2
Umhüllung
Bei raumbezogenen Wiedergabeverfahren wie z.B. 5.1 Surround hat sich der Begriff der „Umhüllung“
des Hörers als anzustrebende Eigenschaft einer Mischung etabliert. Es sei an dieser Stelle lediglich erwähnt, dass im Gegensatz dazu bei der binauralen Synthese aufgrund der Verwendung echter binauraler
Raumimpulsantworten diese Umhüllung gewissermaßen von selbst erreicht wird. Das natürliche Reflexionsmuster des Raumes umgibt dabei den Hörer und integriert ihn im Idealfall vollständig in die binaurale
Simulation. Es lässt sich also auch aus der Forderung nach guter Umhüllung ableiten, dass sowohl die
Überlagerung unterschiedlicher Reflexionsmuster mehrerer Räume als auch die Abbildung eindimensionaler Räume (s. 2.4.1) vermieden werden sollte.
62
5.5.3
Position des Hörers
Bisher befassten sich alle angeführten Überlegungen mit den unterschiedlichen Positionierungen der
Einzelquellen. In der vorgestellten Messmethode wurden zwar für eine Vielzahl an Messpositionen BRIRs gewonnen, nicht jedoch für unterschiedliche Positionen des Kunstkopfes. Bei einer größer angelegten
Implementierung sollte natürlich auch die Position des Hörers innerhalb des Raumes veränderbar sein,
um das sich damit verändernde Reflexionsmuster widerzuspiegeln. Hierbei stellten sich in Bezug auf die
Räumlichkeit ähnliche ästhetische Fragen wie bei der Positionierung eines Hauptmikrofons oder Kunstkopfes im echten Aufnahmeraum.
Die Hörerposition kann aber auch in Relation zum klanglichen Geschehen betrachtet werden. Hier
sind sicherlich verschiedene Modelle denkbar, die auch über die klassischen Hörgewohnheiten hinausgehen können (z.B. eine indirekte Platzierung des Hörers innerhalb des Ensembles oder am Ort eines
bestimmten Instrumentes). Diese Entscheidung, die unmittelbaren Einfluss auf die emotionale Wirkung
einer Mischung hat, sollte unbedingt bewusst vom Tonmeister getroffen werden.
5.5.4
In-Kopf-Lokalisation (IKL) als kreatives Element innerhalb einer Mischung
Wenn in einer binauralisierten Mischung die Außer-Kopf-Lokalisation die Norm darstellt, so kann die
zuvor lediglich in Kauf genommene In-Kopf-Lokalisation zu einer Ausnahme mit künstlerischem oder
interpretatorischem Gehalt werden.
Rücken die Schallquellen in Folge der Binauralisierung gewissermaßen vom Hörer in die Ferne, so
wird die In-Kopf-Lokalisation entsprechend zu einer besonders nahen, intimen Möglichkeit der klanglichen
Abbildung. In verschiedenen Mischversuchen erschienen uns solche nicht-binaural beigemischten Signale
sogar in gewisser Weise verstörend, da sie in völligem Widerspruch mit der aufgebauten binauralen
Simulation stehen. Es wäre interessant zu untersuchen, wie verschiedene Probanden eine solche plötzliche
In-Kopf-Lokalisation emotional bewerten. Dabei wäre natürlich zu bedenken, dass denjenigen Personen,
die ohnehin nur eine geringfügige AKL wahrnehmen können, die Wirkung einer IKL im Kontext sicherlich
deutlich schwächer erschiene.
Die Assoziation von In-Kopf-Lokalisation und lyrischem Ich, zumindest aber die Verbindung zu
menschbezogenen Darstellungen, scheint in diesem Zusammenhang besonders nahe liegend. Dies birgt
sicherlich Möglichkeiten für die Hörspielproduktion, z.B. zur Darstellung der inneren (dem Hörer gewissermaßen oktroyierte) Gedankenwelt im Gegensatz zur äußeren erlebten Welt. Aber auch bei Musik, die
sich mit menschlichen Emotionen und Handlungen auseinandersetzt wie z.B. Lieder oder Opern, böte
sich eine solche Verwendung an. Auch eine Aufteilung von Aktion und Reaktion auf die beiden Verfahren
wäre denkbar.
5.5.5
Außer-Kopf-Lokalisation (AKL) als kreatives Element innerhalb einer Mischung
Der Einsatz vereinzelter binauraler Elemente innerhalb einer eigentlich raumbezogenen Mischung
stellt sicherlich den häufigsten Fall der Kombination aus IKL und AKL dar. Eine solche Verwendung
von Kunstkopfsignalen, wie sie etwa in einigen Aufnahmen von Bands in den 70er und 80er Jahren
vorgenommen wurde, ist aber natürlich noch keine binaurale Synthese im Sinne der vorgestellten Methode.
Eine nachträgliche Binauralisierung einzelner Spuren stellt hier dagegen sicherlich eine einfachere Methode
dar, binaurale Elemente in die Mischung zu integrieren.
Bietet die IKL innerhalb einer kopfbezogenen Mischung eine besonders intime Abbildung, so ermöglicht die AKL innerhalb einer raumbezogenen Mischung eine eher entfernt wirkende Platzierung einzelner
Quellen.
Während solche Effekte für gewöhnlich nur für die Wiedergabe über Kopfhörer ausgelegt sind, wäre
zu überlegen, diese mit Hilfe von (in die binauralen Elemente einberechnete) Crosstalk Cancellation
für die Lautsprecherwiedergabe anzupassen. Da hierbei jedoch Informationen über die Aufstellung der
Lautsprecher vorliegen müssen und sich die korrekte binaurale Abbildung auf einen einzelnen Sweet Spot
beschränkt, ist hiervon im Falle einer Musikmischung für eine größere Hörerschaft vermutlich abzuraten.
63
5.5.6
Ort und Neue Musik
Die vorgestellte Methode bietet auch Komponisten verschiedene Möglichkeiten, die Technik für ihre
Werke nutzbar zu machen.
Dabei ist zunächst einmal an solche Kompositionen zu denken, in denen das Element Raum in exponierter Weise kreativ eingebunden ist, d.h. der Ort als gleichwertiger musikalischer Parameter zu beispielsweise Melos oder Harmonie Anwendung findet. Eine solche Komposition könnte dementsprechend erst bei
der technischen binauralen Wiedergabe ihren vollgültigen Gehalt als Kunstwerk entfalten. Natürlich ist es
gerade im Bereich der elektronischen Musik ein häufig angewandtes Mittel, Lautsprecherpositionen exakt
vorzugeben oder gar eine Verwendung von Wellenfeldsynthese vorzusehen. Eine präzise dreidimensionale
und dabei einfach reproduzierbare Positionierung einzelner Schallquellen ist aber ausschließlich mit der
Binauraltechnik möglich.
Wird Ort als musikalischer Parameter anerkannt, kann er auch zum Objekt künstlerischer Interpretation werden. Denkbar wäre also z.B. eine Darbietung mit rein elektronischer Musik, bei der der Musiker
über den Eingriff in die binaurale Synthese einem mit Kopfhörern ausgestatteten Publikum seine Interpretation des Werkes darlegte. (Sogar Popmusik könnte auf diese Weise vom Stigma, ausschließlich
„Wiedergabemusik“ zu sein, befreit werden.)
Bei Werken mit Musikern und Live-Elektronik wäre eine Wiedergabe mit Kopfhörern natürlich nicht
geeignet, wenn sich Publikum und Musiker im selben Saal befänden. In diesem Fall ist die Wellenfeldsynthese sicherlich das geeignetste Wiedergabeverfahren, um dem Komponisten vergleichbare Freiheiten
zu gewähren.
Um Ort nicht nur als indirekten interpretatorischen Parameter zuzulassen, sondern ihn auch bei
direkter musikalischer Aktion berücksichtigen zu können, wäre eine Einbindung in elektronische Musikinstrumente (beispielsweise über die Anschlagsposition innerhalb einer Taste bei einem Synthesizer)
oder über entsprechende externe Controller bei traditionellen akustischen Instrumenten denkbar. Hierbei
handelte es sich also gewissermaßen um „binaurale Instrumente“. Wie schon oben erwähnt, wäre es im
Falle mikrofonierter akustischer Instrumente jedoch notwendig, das Publikum in einem getrennten Saal
der Aufführung beiwohnen zu lassen, damit die Richtungen der entsprechend synthetisierten virtuellen
Lautsprecher nicht in Konflikt mit der Richtung des Direktschalls geraten.
Die binaurale Synthese könnte zudem als eine einfache Kontrollmöglichkeit für Komponisten implementiert werden, die an Werken für Wellenfeldsynthese arbeiten. In diesem Fall müssten die entsprechenden Steuerdaten in der DAW abgegriffen oder generiert und auf die einzelnen binaural simulierten
Lautsprecher einer virtuellen Wellenfeldsynthese angewendet werden. Zu diesem Zweck könnten BRIRs
echter Wellenfeldsysteme ermittelt werden, um die Interaktion zwischen Wiedergaberaum und Wiedergabesystem korrekt abbilden zu können. Dies zu untersuchen und zu implementieren wäre Aufgabe einer
weiterführenden Arbeit.
Eine weitere mögliche Anwendung wäre die Erstellung von virtuellen Klanginstallationen. Besonders in
Verbindung mit Systemen zur Erstellung von audiovisuellen „Virtual Realities“ (vgl. Kapitel 1.3, Andere
binaurale Systeme) könnten hier eindrucksvolle Werke geschaffen werden.
64
5.6
Beispielmischungen
Im Folgenden möchten wir anhand einiger Beispielmischungen konkrete Möglichkeiten und Probleme
der vorgestellten Methode erläutern. Alle hier besprochenen Beispiele sind auf der beigefügten Audio-CD
enthalten.
5.6.1
R. Murray Schaffer: „Epitaph for Moonlight“ für Chor a capella
Track 1 : Kunstkopfaufnahme
Track 2 : Binaurale Nachmischung
R. Murray Schaffers „Epitaph for Moonlight“ eignete sich aufgrund der in der Komposition geforderten
kreisförmigen Aufstellung der 16 Sängerstimmen besonders für eine eindrucksvolle binaurale Wiedergabe.
Die Aufnahme des Stückes fand im Konzerthaus der Hochschule für Musik Detmold statt – in demselben Raum, aus dem uns auch gemessene BRIRs vorlagen. Da bereits bei der Produktion ein Kunstkopf
zur Verfügung stand, der in der Mitte des im Kreis aufgestellten Chores platziert wurde, und auch von allen 16 Chorstimmen die einzelnen Mikrofonsignale vorhanden waren, lag es nahe, eine binaurale Mischung
zu erstellen, die im Hörvergleich der Kunstkopfaufnahme gegenübergestellt werden könnte.
Abbildung 43 zeigt die Aufstellung im Detail. Für die Sängerstimmen kamen Mikrofone vom Typ
Neumann KM 140 (Nierencharakteristik) zum Einsatz.
Aus Sicht des Kunstkopfes befindet sich die erste Sopranstimme links hinten. Im Uhrzeigersinn folgen
Sopran 2-4, Alt 1-4, Tenor 1-4 und Bass 1-4. Bei der binauralen Nachmischung wurde versucht, sich
möglichst dem originalen Klangereignis, wie es durch die Kunstkopfaufnahme festgehalten worden war,
anzunähern. Die Tatsache, dass bei der binauralen Nachmischung BRIRs aus demselben Raum, in dem
auch die Aufnahme stattgefunden hatte, zur Verfügung standen, begünstigte dieses Vorhaben. Hierfür
wurden also alle Mikrofonsignale mit einer dazugehörigen BRIR gefaltet – in ungefährer Übereinstimmung mit der Position der Sänger in der Kunstkopf-Aufnahme. Im Detail sollte bei der Nachmischung
jedoch gezielt Unzulänglichkeiten, wie sie bei Kunstkopf-Aufnahmen auftreten, entgegengewirkt werden.
So wurde beispielsweise versucht, das erwähnte Phänomen der Spreizung („das Loch in der Mitte“) aktiv auszugleichen, indem die Sänger im vorderen bzw. hinteren Bereich tendenziell dichter beieinander
positioniert und mit vergleichsweise höherem Pegel zugemischt wurden.
Die roten Zahlen in der Abbildung stehen für die Richtung der jeweils verwendeten BRIR. Es ist
beispielsweise zu sehen, dass alle Altstimmen in der binauralen Nachmischung in dem Bereich von +/30° als Phantomschallquellen abgebildet wurden. Ebenso wurden im hinteren Bereich die Tenorstimmen
„gestaucht“ positioniert. Darüber hinaus kamen Filter zur Hervorhebung der Blauertschen Bänder zum
Einsatz.
An der Struktur der Impulsantworten in Bezug auf die frühen Reflexionen und den Nachhall wurde
keine Veränderung vorgenommen. Jede BRIR ging mit voller Länge in die Faltung ein. Es sollte damit
insgesamt also ein klanglich schlüssiges Ergebnis geschaffen werden, das sich in seinem äußerlichen Erscheinungsbild an der Kunstkopfaufnahme orientierte, im Speziellen jedoch versuchte, sich die Vorzüge
der binauralen Mischungstechnik vorteilhaft zu eigen zu machen.
5.6.2
Stereo Inn: „St. John’s“
Track 3 : Stereomischung
Track 4 : Binaurale Mischung
Die Ballade „St. John’s“ der Kölner Band „Stereo Inn“ wurde 2005 in den Studios des Erich-ThienhausInstitutes aufgenommen. Der Song (mit einer Akustikgitarre, einem Shaker und zwei Sängern besetzt)
65
wurde mit Ausnahme einiger Gitarren-Overdubs live aufgenommen. Die Gitarre wurde hierbei sowohl
akustisch mit einem ORTF aus zwei Neumann KM140 (Niere) als auch mit einem piezoelektrischen
Tonabnehmer aufgenommen; der Gesang mit einem Neumann U87. Ziel beider Mischungen war es, für
das jeweilige Wiedergabesystem ein vollgültiges, ästhetisch befriedigendes Ergebnis zu erhalten. Daher
wurde auf eine Pegelabstimmung verzichtet, und lediglich die Klangfarbe und Lautheit beider Mischungen
aufeinander angepasst.
In ersterem Fall handelt es sich um eine völlig konventionelle raumbezogene Mischung, mit den üblichen Eingriffen in Dynamik, Frequenzgang und Räumlichkeit. Im Fall der binauralen Mischung wurde
dagegen – insbesondere vor dem Hintergrund des Hörvergleichs – versucht, die Eigenheiten der binauralen
Synthese besonders hervorzuheben. Daher wurden vielfach (von der musikalischen Entwicklung abhängige) bewegte Quellen eingesetzt, die durch Pegelautomation und Aufschaltung auf unterschiedliche Busse
erzeugt werden konnten (vgl. Kapitel 5.3). Dies betraf besonders die zweite Gesangsstimme, die sich im
Verlauf des Songs hinter dem Kopf des Hörers bewegen sollte sowie den Shaker, der abhängig vom jeweiligen musikalischen Formteil völlig frei positioniert wurde. Die erste Gesangsstimme wurde zum Teil nicht
auralisiert, so dass sich Abschnitte mit In-Kopf-Lokalisation ergaben. Für die binaurale Mischung wurden
Raumimpulsantworten aus dem Brahmssaal der HfM Detmold verwendet. Beide Mischungen, binaural
und raumbezogen, wurden nachträglich verhallt.
Als problematisch stellte sich im Verlauf der binauralen Mischung vor allem die Räumlichkeit dar. Besonders im Fall der Gesangsstimmen musste der Anteil der frühen Reflexionen innerhalb der verwendeten
BRIRs verringert werden, um den Raum ein wenig an den Musikstil anpassen zu können. Insgesamt wäre
es aber wünschenswert gewesen, zu diesem Zweck eine größere Auswahl an Räumen und damit binauralen
Reflexionsmustern zur Verfügung gehabt zu haben.
Es ist zu hoffen, dass in naher Zukunft eine solche Datenbank zur Verfügung stehen wird.
5.6.3
„Robbi, Tobbi und das heliozentrische Weltbild“
Track 5 : Binaurale Mischung
Hierbei handelt es sich um ein Stück von Christopher Tarnow, das ursprünglich als Bravourstück für
zwei Klaviere gedacht war. Aufgrund der zahlreichen sich verschiebenden Patterns eignete es sich besonders für eine künstlerische Binauralisierung. Die Idee war hierbei, die besagten musikalischen Muster in
räumliche Muster zu verwandeln. Aus diesem Grund sollte jeder einzelnen Tonhöhe eine bestimmte binaurale Richtung zugewiesen werden (s. Anhang 4: Abbildung der ersten Partiturseite). Zuvor musste jedoch
über eine günstige Neuinstrumentierung nachgedacht werden, die eine entsprechende Positionierung erst
ermöglichen würde.
Die Entscheidung fiel dabei auf eine Umsetzung unter Zuhilfenahme der FM-Synthese. Da an vielen
Stellen innerhalb des Werkes ein Zusammentreffen zweier klanglich gleichwertiger Instrumente vorausgesetzt wird, musste die Umsetzung gewissermaßen mit zwei sich gleichenden „Instrumenten“ erfolgen,
die aber dennoch so verschiedenartig sein sollten, dass eine Unterscheidung der beiden Stimmen auch
ohne räumliche Zuordnung der beiden Instrumente möglich wäre. Daher wurde zweimal der selbe FMAlgorithmus eines Yamaha DX7-II verwendet, bei der zweiten Stimme jedoch eine Modulatorenfrequenz
auf das Fünffache erhöht. Auf diese Weise entstanden zwei sehr ähnliche Instrumente, die sich aber durch
das ausgeprägtere Obertonspektrum des zweiten unterschieden.
Anschließend wurde das Musikstück in MIDI-Daten umgewandelt. In einem Sequencer wurde für jede
Tonhöhe und Stimme eine eigene MIDI-Datei generiert. Auf diese Weise entstanden 156 Dateien (83
Tonhöhen für die erste und 73 Tonhöhen für die zweite Stimme). Diese Dateien wurden anschließend für
jede Stimme hintereinander gesetzt und diese in ihrer Gesamtheit über den Synthesizer abgespielt. Der
Audioausgang des DX7-II wurde dabei aufgenommen.
66
Nach der anschließenden erneuten Auftrennung der Audiodaten nach Tonhöhe konnten in einer DAW
die Faltungen vorgenommen werden. Die verwendeten BRIRs waren dabei die in Abschnitt II erwähnten
Impulsantworten aus dem Brahmssaal der HfM Detmold. Die Tonhöhen der ersten Stimme wurden dabei
– beginnend bei -180° – in 10°-Schritten im Uhrzeigersinn auf der Horizontalebene angeordnet, die der
zweiten Stimme – beginnend bei 0° – in 10°-Schritten gegen den Uhrzeigersinn. Vor der Faltung wurden
die Signale aus geschmacklichen Gründen leicht verzerrt.
Am Anfang und am Ende der Komposition wurde eine IKL der Signale vorgesehen, so dass das
Werk gewissermaßen hiervon eingerahmt wird. Zu Beginn handelt es sich um das Rauschen eines Radios
(aufgenommen mit einem alten Telefunken-Radio) sowie einem Cluster, gegen Ende zusätzlich um rückwärts abgespieltes Flüstern. Letzteres wurde aufgrund der in der Komposition angelegten Verdichtung
des Tonsatzes und seiner verstörenden Wirkung in Verbindung mit IKL verwendet.
Die Einzelquellen wurden anschließend ohne einen weiteren Eingriff summiert.
Abbildung 43: Aufstellung bei der Choraufnahme
67
Danksagung
Zuallererst möchten wir allen Teilnehmern der Hörversuche danken, ohne die diese Arbeit nicht möglich gewesen wäre. Des weiteren möchten wir danken:
Herrn Prof. Dr. Dipl.-Ing. Malte Kob und Herrn Prof. Dipl.-Tonmeister Michael Sandner für die Betreuung
der Arbeit.
Martin Schneider und der Georg Neumann GmbH, Berlin, für die Bereitstellung des Kunstkopfes und die
zahlreichen hilfreichen Hinweise.
Der Genuin Recording Group, Leipzig, für die umfangreiche Unterstützung und die Bereitstellung der
Studios.
Christian Budde für die Erstellung des VST-Plugins.
Marc Schettke für die gekonnte Überarbeitung des Onlinetests.
Emma Lain, Moritz Reinisch und Johannes Wallbrecher für die Bereitstellung der Hörbeispiele und die
kompetente Beratung.
Max Holtmann für die Erstellung der Scans.
Ein besonderer Dank geht schließlich an Ulrike Tarnow und Gudrun Keinath für die geduldige Unterstützung und das Korrekturlesen der Arbeit.
Christopher dankt Daniel.
Daniel dankt Christopher.
68
Literatur
[1] Blauert, J.: Räumliches Hören. S. Hirzel Verlag, Stuttgart, 1974.
[2] Bücklein, R.: Hörbarkeit von Unregelmäßigkeiten in Frequenzgängen bei akustischer Übertragung.
Dissertation, TH München, 1964.
[3] Freedman, S. J. und Fisher, H. G.: Localization of Sound During Simulated Unilateral Conductive
Hearing Loss. Acta Otolaryngologica 66: 213220, 1968.
[4] Görne, T.: Tontechnik, 2. überarbeitete Auflage. Carl Hanser Verlag, München, 2008.
[5] Griesinger, D.: Equalization and Spatial Equalization of Dummy Head Recordings for Loudspeaker
Reproduction. AES Paper 2704, Los Angeles, 1988.
[6] Hammershøi, D. und Møller, H.: Binaural Technique - Basic Methods for Recording, Synthesis and
Reproduction. In: Blauert, J.: Communication acoustics. Springer, Berlin / Heidelberg / New York,
2005.
[7] Karamustafaoglu, A.: Binaural Room Scanning, a new technology: BRS Processor. In: Swiss Sound
(Studer) Nr. 43, April 2000.
[8] Kulkarni, A. und Colburn, H. S.: Efficient Finite-Impulse Response Filter Models of Head-Related
Transfer Functions. In: J. Acoust. Soc. Am. 97, 3278, 1995.
[9] Kulkarni, A. und Colburn, H. S.: Role of Spectral Detail in Sound-Source Localization. In: Nature,
396, 747, 1998.
[10] Lee, S.-I, Kim, L.-H., Sung, K.-M.: Head Related Transfer Function Refinement Using Directional
Weighting Function. AES Paper 5918, New York 2003.
[11] Lentz, T., Schröder, D., Vorländer, M., Assenmacher, I.: Virtual Reality System with Integrated
Sound Field Simulation and Reproduction. In: EURASIP Journal on Applied Signal Processing, Sonderausgabe: Spatial Sound and Virtual Acoustics.
[12] Mackensen, P., Felderhoff, U., Theile, G., Horbach, U., Pellegrini, R.: Binaural Room Scanning - A
new Tool for Acoustic and Psychacoustic Research. In: Fortschritte der Akustik, DAGA ´99. DEGA,
Oldenburg, 1999.
[13] Menzel, D., Wittek, H., Theile, G., Fastl, H.: The Binaural Sky: A Virtual Headphone for Binaural
Room Synthesis. In: 1st Int. Tonmeister Symposium, Hohenkammer, 2005.
[14] Meyer, J.: Akustik und musikalische Aufführungspraxis, 4. überarbeitete Auflage. Verlag Erwin
Bochinsky, Frankfurt am Main, 1999.
[15] Minnaar, P., Olesen, S. K., Christensen, F., Møller, H.: Localization with Binaural Recordings from
Artificial and Human Heads. J. Audio Eng. Soc., Vol. 49, 2001.
[16] Møller, H.: Fundamentals of binaural technology. Appl. Acoustics, Vol. 36, 1992.
[17] Møller, H., Sørensen, M. F., Hammershøi, D., Jensen, C. B.: Head-Related Transfer Functions of
Human Subjects. J. Audio Eng. Soc., Vol. 43, 1995.
[18] Plenge G., Krüger, R., Wilkens, H.: Über die Reproduktion von Hörbildern mit Hilfe eines künstlichen
Kopfes. Beitrag zur 8. Tonmeistertagung 1969, in: Berichte der Tonmeistertagung Nr. 8 (1969) bis Nr.
24 (2006). Bildungwerk des Verbandes Deutscher Tonmeister (VDT), Verlag K. G. Saur, München,
2006.
69
[19] Potratz, U.: Untersuchung der Gestaltungsmöglichkeiten früher Reflexionen mit Hilfe eines raumakustischen Modells. Diplomarbeit am Erich-Thienhaus-Institut an der Hochschule für Musik Detmold.
Detmold, 2005.
[20] Ratay, A.: Vergleichende Untersuchungen zur Aufnahme verteilter Schallquellen mit Kunstkopftechnik und binaural gemischter Polymikrophonie. Diplomarbeit am Institut für technische Akustik an der
Rheinisch Westfälischen Technischen Hochschule Aachen. Aachen, 2004.
[21] Lord Rayleigh: On our perception of sound direction. In: Phil. Mag. 13, 6th series, 1907.
[22] Rumsey, F.: Spatial Audio. Focal Press, Oxford, 2001.
[23] Rychtarikova, M., van den Bogart, T., Vermeir, G., Wouters, J.: Binaural Sound Source Localization
in Real and Virtual Rooms. J. Audio Eng. Soc., Vol. 57, 2009.
[24] Schirmer, W., Haustein, B. G.: Messeinrichtung zur Untersuchung des Richtungslokalisationsvermögens. In: Hochfrequenztechnik und Elektroakustik, Nr. 79, 1970.
[25] Sengpiel,
E.: Die
Bedeutung
der
Blauertschen
Bänder
für
die
Tonaufnahme.
http://www.sengpielaudio.com/DieBedeutungDerBlauertschenBaender.pdf (20.10.2009)
[26] Shaw, E.A.G.: External Ear Response and Sound Localization. In: W. Gatehouse: Localization of
Sound: Theory and Applications. Amphora Press, Groton, 1982.
[27] Theile, G.: Die Bedeutung der Diffusfeldentzerrung für die stereofone Aufnahme und Wiedergabe.
In: Tagungsbericht der 13. Tonmeistertagung, München, 1984.
[28] Thurlow, W. R., Runge, P. S.: Effects of Induced Head Movements during Sound Localization. In: J.
Acoust. Soc. Am. 42, 1347, 1967.
[29] Toole, F. E., McSayers, B. A.: Lateralization Judgements and the Nature of Binaural Acoustic Images.
In: J. Acoust. Soc. Am. 37, 319, 1965.
[30] Torres, R. R., Petragli, M. R., Tenenbaum R. A.: An Efficient Wavelet-Based HRTF Model for
Auralization. In: Acta Acustica 90, 108, 2004.
[31] Vorländer, M.: Auralization. Springer Verlag, Berlin / Heidelberg / New York, 2008.
70
Anhang
Anh. 1: Kommentare aus Abschnitt 4 des Hörvergleichs: Unterschiede zwischen beiden
Mischungen der Choraufnahme, sortiert nach Präferenz des Probanden
Binauralsynthese wird bevorzugt
„Viel mehr Hall auf [KU]“
„Bei [Binaural]: Lokalisierbarkeit, Räumlichkeit und Ortbarkeit besser“
„[Binaural]: klingt natürlicher, räumlicher und ist rundum ortbar, während ich [KU] eher
hinten orte“
„[KU]: sehr rechtslastig (männerlastig) Frauen in [Binaural] besser zu hören \ laut Frauen
von links, Geräuscheffekte: Frauen hinten ->bei [Binaural] // Männer immer“
„[KU]: Räumlichkeit it hauptsächlich so: (Skizze: extrem l/r) [Binaural] hat natürlichere
Räumlichkeit“
„Bessere Ortung bei [Binaural]“
„[Binaural]: Einzelne Stimmen sind im Gegensatz zu [KU] im Raum besser lokalisierbar.
Stimmen klingen klarer“
„[Binaural]: Durchsichtigkeit (++), Klangdichte bei [KU]: (+)“
„In [KU] sind die Solostimmen breiter, nicht mehr so genau zu orten“
„Mischung [Binaural] erscheint viel plastischer, räumlicher, die Stimmen erscheinen bei
Mischung [KU] eher planar. Beide Mischungen höre ich größtenteils links und rechts vom
Kopfhörer“
„ich höre kaum einen Unterschied; die Hauptquellen (Frauen- und Männerstimmen) scheinen bei [KU] etwas näher zusammen zu liegen“
„Beispiel [Binaural] erscheint neutraler + dynamischer. Der Unterschied ist gering.“
„Mischung [Binaural] ist für mich etwas differenzierter.“
„Bei Mischung [Binaural] ist das Umhüllungsgefühl größer.“
„Mischung [KU] ist eher flach, die Stimmen sind nicht greifbar“
„[Binaural] ist ein wenig direkter als [KU]“
„Mischung [Binaural] deutlich stabilere und angenehmere Ortung, kompakterer EnsembleKlang“
„Bei [Binaural] ist die genaue Lokalisation der Stimmen einfacher.“
„Mischung [Binaural] erzeugt einen stärkeren Räumlichen Einbezug des Hörers. Das Gefühl
in einem Kreis von Sängern zu stehen ist in [Binaural] stärker, die Lokalisation der Phantomschallquellen ist schärfer als in [KU]. Aber auch die Lokalisation von ganz links und ganz
rechts ist in [Binaural] schärfer. An manchen Stellen bei [Binaural] lief mir fast ein Schauer
über den Rücken, weil die Lokalisation der Sänger so realistisch war.“
„Die [Binaural] Aufnahme ist räumlicher und sphärischer. Die [KU] Aufnahme hingegen
zu trocken. Die [KU] etwas besser lokalisierbar, aber bei zu geringer Basis.“
„Mischung [Binaural]: Gute Räumlichkeit, leicht unnatürlicher Klang. Mischung [KU]: Natürlicher Klang, Lokalisierung nur auf der Ohr-Verbindungsachse“
„Mischung [Binaural] klingt klarer.“
„[Binaural]: krasser räumlicher Eindruck! es passiert viel hinter dem kopf. die sänger sind
wie in grüppchen auf einer scheibe angeordnet, die durch meinen kopf geht. [KU]: atmo vorhanden (durch nachhall) aber alles wirkt sehr flach, alle sänger stehen auf einem haufen.“
„[Binaural] ist schärfer, dichter und ein bisschen klarer, weniger diffus“
„[KU] klingt "dünner", weiter hinten, etwas verfärbt. [Binaural] klingt voller, lauter (?),
näher. Beide Mischungen hinter dem Kopf“
„Klangfarbe: [KU] ist dumpf“
71
Kunstkopfaufnahme wird bevorzugt
„[KU] ist klarer, weniger Rauschen“
„[Binaural]: nur von l und r, schlechte Verbindung in der Mitte, von vorne nichts, bisschen
von hinten. [KU]: bessere Umhüllung, feinere Lokalisation, offener Klang“
„[KU] klingt klarer“
„[Binaural]: mehr Hall, wirkt imposanter, aber unnatürlicher“
„[KU] natürlicher, direkter, Raumklang kommt besser zur Geltung“
„[KU] ist durch eine geringere Räumlichkeit klarer in der Lokalisation“
„[KU]: differenzierter, die einzelnen Stimmen sind eher lokalisierbar, [Binaural]: wirkt, als
ob sich die Sänger bewegen.“
„[Binaural]: sehr starke Auffächerung l/r. Eindruck, als ob man sich darin befindet. [KU]:
mehr aus einer Publikumsperspektive, weniger extrem.“
„Bei [KU] erscheint der Raum größer, gleichzeitig habe ich jedoch das Gefühl, näher am
Chor zu sein, und ihn direkter zu hören. [Binaural] erscheint mir weiter entfernt“
„[KU] ist besser ausgeglichen? Wirkt mehr im Gleichgewicht. Bei [Binaural] sind Höhen/
Tiefen manchmal härter/stärker?. Der Rundum-Effekr ist bei [KU] auch besser“
„[KU]: wesentlich profunder, nicht so hohl und flach wie [Binaural]. In [KU] mehr Tiefe,
nicht so direkter Klang wie in [Binaural]“
„Der größte Unterschied ist m.M.n. der Grad der Artefaktbildung bzw. zusätzlicher Geräuschhaftigkeit in Mischung [Binaural]. Zusätzlich entstand der Eindruck einer organischeren
Umhüllung bei Mischung [KU]“
„[KU] etwas klarer, [Binaural] tendenziell aufdringlich Unterschiede kaum merklich; Einfluss des Kopfhörerklangs (inEar Sound Isolation)?“
„[KU] ist räumlicher“
„Bei Mischung [KU] ist alles deutlicher, [Binaural] eher verschwommen.“
„Lokalisationseindruck der Quellen“
„[KU] finde ich angenehmer zu hören, eine LS Wiedergabe wird schon ein bisschen imitiert“
„Mehr Trockenanteil in [Binaural]“
„[Binaural] ist verwaschener und weniger präsent/direkt im Vergleich zu [KU]. [KU] trennt
die Stimmen besser nach rechts und links.“
„Aufnahme [KU] wirkt in der Räumlichkeit variabler. Aufnahme [Binaural] erzeugt mehr
druck auf den Ohren. Aufnahme [KU] scheint die Ohren zu umhüllen. Aber mehr in Form
einer Kugel um jedes Ohr einzeln.“
„In [KU] verschmelzen Sänger und Raum besser, der Frequenzgang ist ausgeglichener, hat
mehr Bass und mehr Raum“
„Obertöne: wenig bei binaural, mehr bei [KU]“
Keine Präferenz (Choraufnahme)
„[Binaural] scheint etwas mehr Tiefenstaffelung zu haben.“
„die Breite der Stereoabbildung, ein Gefühl den Nachall mehr zu mischen“
„Ganz gut“
„kein Unterschied“
„Klangfarbe“
„kein spürbarer Unterschied“
„kein Unterschied hörbar“
72
Anh. 2: Kommentare aus Abschnitt 4 des Hörvergleichs: Unterschiede zwischen beiden
Mischungen der Popmusikaufnahme, sortiert nach Präferenz des Probanden
Binauralsynthese wird bevorzugt
„[Stereo] auf Dauer zu direkt, aufdringlich; der Sänger sitzt bei mir im Kopf. Bei [Binaural]:
man hat das Gefühl, mit im Raum zu sein (angenehm) [Binaural] ist offener, durchsichtiger,
Gitarre klingt besser, Sänger ist besser eingebettet. [Stereo] Sitzt mir zu sehr auf der Nase“
„[Binaural]: Instrumente klingen alle sehr deutlich, etwas sehr scharf getrennt, "zu natürlich", der Shaker wandert von rechts nach links; [Stereo]: Gesang zu laut, aber besser mit 2.
Stimme abgemischt, Shaker zu dumpf“
„[Binaural]: 2 Stimmen gut hörbar, wandert von rechts nach links? [Stereo]: Stimme weiter
vorn, Background (2.Stimme) nicht so gut hörbar, Stimme und Instrumente aus gleicher
Richtung.“
„Obwohl [Binaural] eher hinten zu hören ist ([Stereo] eher im Kopf) -> angenehmer im
Gesamtzusammenklang“
„Der Gesang in [Stereo] ist mir zu „nah„. Ich nehme in beiden Mischungen die Gitarre und
die Shaker neben mir wahr. Ist ungewohnt, aber reizvoll. (einmal links / einmal rechts)“
„[Binaural]: klarer durchhörbar als [Stereo]; Wieder der Eindruck einer Platzierung im
Raum, Runderer Klang als [Stereo]“
„Gesang deutlicher bei [Binaural]. 2-Stimmigkeit bei [Stereo] fast verloren“
„Beide Aufnahmen spielen sich bei mir ohne deutliche vorne-hinten-Ortung ab. [Binaural]
ist weiter gespreizt (Shaker extrem links) und transparenter“
„Mischung [Binaural] ist von den Quellen her etwas entfernter vom Hörer. Mischung [Stereo] ist genau anders herum näher, das ist zwar etwas unangenehm, dafür ist die Klangfarbe
der Sängerstimme besser als bei [Binaural].“
„die Auffächerung zwischen Hauptstimme und Nebenstimme in [Binaural], gepaart mit einer insgesamt größeren und angenehmeren Räumlichkeit, erscheint mir gelungener als [Stereo],
das im Vergleich räumlich relativ flach und auch im Frequenzgang beschnitten erscheint“
„Erster klingt sehr gut, der [Stereo] flacher und weiter weg“
„[Binaural]: Interessante „Stereo-Breite„, wirkt wie 70° (leeres Viertel im Rücken), LeadVocs klingen „im Kopf„. [Stereo]: weniger breites Klangbild, Klang befindet sich vor allem in
der senkrechten Eben durch beide Ohren“
„Mischung [Binaural] vermittelt einen besseren Räumlichkeitseindruck“
„Mischung [Binaural] klingt mehr wie bei einem echten Konzert, es hallt stärker, jedoch
nicht unangenehm.“
Raumbezogene Mischung wird bevorzugt
„[Binaural]: künstlich wirkende Räumlichkeit, Sprünge in der Lokalisation. Elemente der
Mischung fallen auseinander. Entspricht nicht der Hörgewohnheit, verfärbt. [Stereo]: Klarere
Ortung im Kopf (vermutlich). Weniger verfärbt, bessere Mischung der Einzelelemente des
Arrangements“
„[Binaural]: leicht verfärbt, räumlich, Stimme nicht scharf zu lokalisieren, Gitarre und
Shaker sind super. [Stereo]: flach, Stimme gut ortbar, mir bekanntes Klangbild, vermutlich
normales [Stereo], nicht verfärbt.“
„[Stereo] klingt wärmer“
„[Stereo]: positiv: ausgewogenerer Frequenzgang als [Binaural]. Negativ: etwas eng, flach.
"British" sound. [Binaural]: positiv: Quellen besser trennbar, lockerer im Raum. Negativ:
Raum selber schwammig, verfärbt. Mischung verfärbt, kaum Bass, zu räumlich, Phasenprobleme hörbar.“
73
„[Binaural] klingt unnatürlich, besonders die Stimme. [Stereo]: so wie gewohnt.“
„[Binaural]: deutlich verfärbt, sehr "live", wandernde Quellen (v.a. Stimme) ungewohnt,
aber gut durchhörbar. [Stereo]: Höhere Intensität/Klangdichte“
„[Binaural] ist etwas bandbegrenzt, allerdings lassen sich die beiden Stimmen besser voneinander trennen“
„Hauptunterschiede in den Vokalstimmen. In [Binaural] eher überpräsent, in [Stereo] näher
und echter, dafür fast etwas dumpf. Außerdem ist die Zweitstimme in [Stereo] kaum hörbar.“
„Mischung [Binaural] Stimme verfärbt, dadurch, dass sie von hinten erklingt. In Mischung
[Stereo] Stimme direkt von Mitte des Kopfes abgebildet.“
„Mischung [Stereo] gefällt mir besser als [Binaural]. Bei [Binaural] klingt der Sänger verfärbt und ungreifbar, scheint von hinten zu kommen.“
„Nr. [Binaural] ist breiter ; Klangfarbe: Nr. [Stereo] ist etwas dumpf, aber Nr. [Binaural]:
Sänger verfärbt“
„[Binaural] klingt zu Beginn unatürlich nasal in Stimme und Gitarre. [Stereo] klingt natürlicher oder auch nur gewohnter. Zum Ende von [Binaural] ist ein Effekt von näherkommenden
Musiker zu hören, es klingt so besser.“
„Stimmen bei Mischung [Binaural] werden nicht im Kopf lokalisiert. Das ist zwar eigentlich
wünschenswert klingt aber ungewohnt und irgendwie unangenehm (zu räumlich). Der Klang
der Stimme ist bei [Stereo] viel schöner“
„Zu [Stereo]: Leichte Übergewichtung im rechten Kanal durch die Akustikgitarre. Sehr sehr
natürliche Abbildung der Instrumente und Stimme. Das Klangbild wirkt natürlich und sehr
offen. Zu [Binaural]: Sehr starke Verfärbung der Stimme. Verfärbung der anderen Instrumente
wesentlich schwächer, aber merklich weniger neutral als in [Stereo]. Scheinbares Wandern
der Phantomschallquellen. Die [Binaural] Stimme im Gesang ist stärker richtungsmäßig und
spektral von der Hauptstimme getrennt. Die Gitarre ist weniger durchsetzungsfähig. Shaker
erscheint zu präsent.“
„Bei Mischung [Binaural] scheint die Stimme verfärbt zu sein, bei [Stereo] klingt die Stimme
natürlich und die Gitarre schärfer, dafür klingen die Shaker nicht so "voll" wie bei [Binaural].
Der Sänger sitzt mir bei beiden Mischungen im Kopf, das ist ein bisschen aufdringlich“
„Mischung [Binaural]: klingt stark verfärbt, insbesondere die Stimmen und der Hall, der
Raum wirkt bei Anregung mit Percussioninstrumenten „flatterig„ Mischung [Stereo]: natürliche Wiedergabe der akustischen Quellen / Stimmen. Engere Abbildungsbreite, deutlichere
Ortbarkeit der Quellen“
„Mischung [Binaural]: Sänger total im Kopf, verfärbt!“
„[Binaural] ist komisch verfärbt, der Raum klingt auch komisch und nicht passend“
„Mischung [Binaural]: stark verfärbt, Stimme räumlich und von hinten Mischung [Stereo]:
Shaker sehr weit rechts und links, Stimme gut in der Mitte und präsent“
„[Stereo]: 2.Stimme zu wenig Pegel“
„[Binaural]: zu viel Hall, Git/Sänger zu weit auseinander; [Stereo]: Git eher zu laut (rechts),
2.Stimme eher zu leise. Besser vom Hall, räumlicher Abstand besser.“
„[Binaural]: Main Voc komisch links (-) Gitarren so stark li und re getrennt, super gute
Vorstellung im Raum (+) Klang ok; [Stereo]: Sänger eher im Kopf (-) schönere Klangfarbe
(+), ansprechender Sound“
„[Binaural]: klingt sehr hohl, die Stimme schwankt hin- und her“
„[Binaural] wirkt höhenlastiger, in [Stereo] kommt das Chicken Egg nicht so gut durch,
trotzdem angenehmer für die Ohren“
„Eigentlich kann man beide Mischungen nicht miteinander vergleichen. [Binaural]: experimentell (Gesang wandert hinten L,R,C /am Ende vorne): interessant. Musikalisch klingt die
Mischung etwas (unausgewogen) und verfärbt, Aber die Lokalisierung hinten ist gelungen“
„[Binaural]: zu breit (!) Stimme zu unscharf, zu räumlich. [Stereo]: Stimme 2 deutlich und
klar. Instr. Könnten differenzierter sein.“
74
„[Stereo]:Gesamtklang von vorn angenehm. [Binaural]: Differenzierter - gut, aber, als wäre
man mittendrin/etwas zu viel“
„[Stereo]: Leadgesang deutlich im Vordergrund -> aber in guter Balance mit Gitarre (+)
Stimme könnte etwas intimer klingen, mehr Zischlaute. Background zu leise. [Binaural]: Verhältnis Lead/Background ausgeglichen (+) Leadgesang zu indirekt, vllt. Zu hallig, zu metallisch“
„[Binaural]: Mehr Hall? Klang weiter weg im Gegensatz zu [Stereo]. [Stereo] hat mir besser
gefallen“
„[Stereo] besser: wichtigste Parameter (Gesang, Gitarre) im Vordergrund. [Binaural]: Gitarre zu sehr an der Seite, dafür 2. Gesangsstimme überhaupt hörbar. (Skizze: li hinten)“
„[Binaural]: Stimme wandert (Pan), [Stereo]: Gitarre (Diskant) scheint auch ein bisschen
über die Mitte nach links zu wandern, Stimme scheint gegen Ende irgendwie näher als am
Anfang. Mischung [Stereo] empfinde ich, obwohl sie nicht so breit ist ausgewogener, da die
Instrumente näher zusammen sind, mit der Gitarre scharf links und dem Shaker rechts in
Mischung [Binaural] ist fällt der Mix ziemlich auseinander.“
„Beispiel [Binaural] höre ich mit zwischen R/L "zerrissenem" Gitarrensound, ohne Lokalisierungsmöglichkeit.“
„auch hier eine angenehmere Wiedergabe (von hinten); dieser unangenehme Lupeneffekt
ist weg, trotzdem eigentlich bei [Binaural] durchsichtiger“
„[Binaural] - Breite Mischung, aber mit einer sehr schlechten Lokalisation. Sänger wandert
um Stereobasis abhängig von andere Stimmen. Sehr labil Stereobasis, die verändert sich. Unklare Lokalisation den Instrumenten. [Stereo] - Kompakte, ein bisschen enge stereo Abbildung,
ohne negativen Phasenschwierigkeiten. Mischung mit der guten Lokalisation des Sängers und
den Instrumenten.“
„Mischung [Binaural] ist undifferenziert, sehr in die Ferne gerückt, leicht nasal. Mischung
[Stereo] hat hingegen den Gitarre-im-Kopf-Faktor, typischer für diese Musik.“
„[Binaural]: Weitere Auffächerung des Raums, dünnerer Klang, etwas gepresste Stimme.
[Stereo]: Vollerer Klang, aufdringlicher“
„[Binaural] ist halliger als [Stereo]“
„Bei [Binaural] ist mir der Raum zu hallig.“
„Die [Stereo] Aufnahme ist mumpfig, sie klingt nicht frei. Die [Binaural] Aufnahme klingt
wie ein schlechter Live-Mitschnitt direkt vor den PA-Boxen. Die [Stereo] ist tendentiell auf
dem richtigen Weg. Der Gesang müßte offener klingen, er ist leider leicht verfärbt. Die Gitarren
dürften auch etwas spritziger sein.“
„Räumlichkeit! Aufnahme [Binaural] hat eine Räumlichkeit die nicht zum Stil passt. (Untere Mitten-lastig. zu großer raum. zu viel raum) Bei Aufnahme [Stereo] nervt nur der Shaker
halb links.“
„Mischung [Stereo]: Schöner, natürlicher Klang, wenig Räumlichkeit Mischung [Binaural]:
Sehr unnatürlicher Klang, bessere Räumlichkeit“
„das autotune klingt schrecklich!!! (sorry, bin da purist) [Stereo]: klingt sehr natürlich
räumlich. cooles feeling, gitarre und shaker von hinten zu haben. [Binaural]: seltsamer eindruck, keine einheitliche atmo, gitarre und shaker hören sich an, als wären sie in einem kasten
im nächsten raum, gesang ist in einem übertriebenen raum...“
Keine Präferenz (Popmusik)
„[Stereo] klingt weicher. Aber beide ganz gut“
„[Binaural]: gute räumliche Trennung zw. Backing Vocals und Lead Vocals. Kaum In-KopfLokalisation. Gesang leicht verfärbt“
75
Anh. 3a: Testbogen des vor Ort durchgeführten Hörvergleichs
76
Anh. 3b: Testbogen des vor Ort durchgeführten Hörvergleichs
77
Anh. 3c: Testbogen des vor Ort durchgeführten Hörvergleichs
78
Anh. 3d: Testbogen des vor Ort durchgeführten Hörvergleichs
79
Anh. 3e: Testbogen des vor Ort durchgeführten Hörvergleichs
80
Anh. 3f: Testbogen des vor Ort durchgeführten Hörvergleichs
81
Anh. 4: Erste Partiturseite von „Robbi, Tobbi und das heliozentrische Weltbild“
82
Erklärung
Wir versichern, dass wir die vorliegende Arbeit zu gleichen Teilen selbständig und ohne Benutzung anderer
als der angegebenen Quellen angefertigt haben und die Arbeit in gleicher oder ähnlicher Form noch keiner
anderen Prüfungsbehörde vorgelegen hat. Alle Ausführungen, die wörtlich oder sinngemäß übernommen
wurden, sind als solche gekennzeichnet.
Detmold, den 22.10.2009
Daniel Keinath
Christopher Tarnow
83

Diplomarbeit Keinath, Tarnow - Erich-Thienhaus

Transcrição

Documentos relacionados

Transaural Stereo - Kunstkopfstereofonie ueber Lautsprecher

MAA 406

Ergänzungsfutter online mischen: Ein neues Fütterungskonzept im

Page 1 of 1 DENON | DCD-CX3 | CD/SACD

Aktivierung von EM

blackwire 310/320

B-Speech® Universal Stereo Audio/Musik Transmitter B

Orange Amber Techrider 21/01/16

Eigenschaften Technische Details Lieferumfang Verpackungsdetails