Technische Universität München

Transcrição

Technische Universität München
PHYSIK DEPARTMENT
Neurophysik
der Echounterdrückung
Diplomarbeit von
Moritz Bürck
abgegeben am
18. Oktober 2005
betreut von
Prof. Dr. J. Leo van Hemmen
Technische Universität München
2
Inhaltsverzeichnis
1 Echo und Echounterdrückung
5
2 Zur monauralen Echounterdrückung
9
2.1
Psychophysikalische Experimente . . . . . . . . . . . . . . . . . . . .
2.2
Biologische Evidenz
. . . . . . . . . . . . . . . . . . . . . . . . . . .
3 Das Modell
9
15
19
3.1
Aufbau
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
3.2
Analytik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
3.2.1
Lösung für einen Klick . . . . . . . . . . . . . . . . . . . . . .
22
3.2.2
Lösung für einen einsetzenden Reinton . . . . . . . . . . . . .
25
3.2.3
Fazit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
Numerik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
31
3.3.1
Verhalten für Klicks und Klickpaare . . . . . . . . . . . . . .
33
3.3.2
Verhalten für Reintöne . . . . . . . . . . . . . . . . . . . . . .
40
3.3.3
Verhalten für Rauschen . . . . . . . . . . . . . . . . . . . . .
45
3.3.4
Fazit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
47
3.3
4 Interpretation und Anwendung
51
5 Zusammenfassung
57
3
4
A Nachtrag zu Kapitel 3.2.2
INHALTSVERZEICHNIS
59
Kapitel 1
Echo und Echounterdrückung
Der im Alltag verwendete Begriff des Echos stammt aus der griechischen Mythologie.
Dort ist Echo der Name einer Nymphe, die von Zeus den Auftrag erhielt, seine
Gattin Hera mit dem Erzählen von Geschichten zu unterhalten, damit Zeus Zeit für
seine amourösen Abenteuer hatte. Als Hera dies entdeckte, beraubte sie Echo der
Sprache und ließ ihr lediglich die Fähigkeit, die letzten an sie gerichteten Worte zu
wiederholen. Daher nennen wir den Widerhall eines Wortes oder Klanges Echo.
Wissenschaftlicher kann man ein Echo als eine, meist abgedämpfte, Wiederholung
eines akustischen Signals bezeichnen. Die Dämpfung ist üblicherweise von Frequenz
zu Frequenz verschieden stark ausgeprägt, jeder Frequenzkomponente des Echos geht
aber eine identische Frequenz im Signal voraus. Zwar können Schallwellen durch eine
Reflexion an sehr schnell bewegten Objekten ihre Frequenz ändern (Doppler-Effekt),
in natürlichen Umgebungen spielt dieser Effekt jedoch keine Rolle. Bei der Reflexion
an Wänden und anderen unbewegten Objekten wird die Frequenz der Echos nicht
manipuliert. Aus diesem Grund bezeichnet man Echos als frequenzspezifisch.
Im Allgemeinen sind Echos Reflexionen eines akustischen Signals an Wänden und
sonstigen Gegenständen der Umgebung. Dabei nehmen Schallwellen nicht nur den
direkten Weg von der Schallquelle zum Ohr, sondern auch alle anderen möglichen
Wege (s. Abb. 1.1).
So treffen nach einem Signal zeitlich versetzt zahlreiche dem Signal ähnelnde Reflexionen in unserem Ohr ein. Überschreitet die zeitliche Verzögerung einen bestimmten Wert, die Echoschwelle, nehmen wir die Reflexionen bewusst als eigenständiges
Schallereignis, als Echo, wahr. Das geschieht zum Beispiel in den Bergen, wo in weiterer Entfernung der Schallquelle eine oder wenige reflektierende Flächen existieren.
Aber auch in Kirchen oder gefliesten Bädern sind aufgrund der Vielzahl besonders
5
6
KAPITEL 1. ECHO UND ECHOUNTERDRÜCKUNG
Abbildung 1.1: Echos sind Reflexionen eines akustischen Signals z.B. an Wänden.
Schallwellen nehmen nicht nur den direkten Weg von der Schallquelle zum Hörer,
sondern auch alle anderen möglichen Wege.
gut reflektierender Flächen Mehrfachreflexionen möglich und somit Echos hörbar.
Dort führt die Überlagerung der zahlreichen Echos allerdings zu einem diffusen
Klangbild, dem sogenannten Nachhall.
Reflexionen, die vor der Echoschwelle am Ohr eintreffen, werden nicht bewusst wahrgenommen. Die Unterdrückung der Wahrnehmung dieser schnellen Echos bezeichnet
man als Echounterdrückung.
Echounterdrückung ist ein neuronaler Prozess. Die für Nervenzellen relevante Zeitskala liegt im Bereich von Millisekunden; die Echoschwelle für gesprochene Sprache
unter Laborbedingungen zum Beispiel liegt in der Größenordnung von 20 ms [1].
Der Zeitraum vom Beginn des Signals bis zur Echoschwelle ist also relativ groß. So
lässt sich der Komplex der Echounterdrückung bei näherer Betrachtung in zwei unabhängige Mechanismen unterteilen: die langsamere binaurale Echounterdrückung
und die schnellere monaurale Echounterdrückung. Erstere wertet - wie der Name
sagt - die Information beider Ohren aus, wohingegen Letztere bereits mit nur einem
Ohr funktioniert. Das lässt sich leicht in einem kleinen Experiment überprüfen. Hält
man sich in einem größeren Raum wie zum Beispiel einem Hörsaal probeweise ein
Ohr zu, wird mit kurzer Verzögerung ein Teil der sonst unhörbaren Echos hörbar.
In einem kleinen Raum hingegen ist das nicht der Fall.
Wie wesentlich Echounterdrückung für die Wahrnehmung unserer Umwelt ist, wird
sofort klar, wenn man sich die Echounterdrückung wegdenkt. Deutlich wird das
am Beispiel der Bahnhofshalle. Jeder weiß, wie mühsam es oft ist, in einer Bahn-
7
hofshalle Lautsprecherdurchsagen zu verstehen. Das hat zwei Gründe: zum einen
werden die verschiedenen Lautsprecher vor allem in alten Anlagen oft mit kleinen Verzögerungen angesteuert, was quasi künstlich Echos erzeugt; zum anderen
ermöglichen die Weite und die großen, gut reflektierenden Wände einer Bahnhofshalle sehr große Zeitunterschiede zwischen Signal und Echo, was heißt, dass die
Echounterdrückung zu großen Teilen umgangen wird. Ein Gespräch ohne Echounterdrückung würde sich demnach in einem normalen Zimmer ähnlich wie Lautsprecherdurchsagen in einer Bahnhofshalle anhören. Manchmal sind Echos allerdings
erwünscht: In Konzerthallen beispielsweise wird viel Mühe darauf verwendet, den
Saal so zu gestalten, dass bewusst nicht wahrnehmbare Echos das Klangbild verbessern.
Besondere Erwähnung verdient die Echounterdrückung im Zusammenhang mit der
Ortung von Hörobjekten vor allem in engen und unübersichtlichen Umgebungen.
Hier sind potentielle Feinde im Vergleich zu einem weiten und offenen Umfeld wie
beispielsweise der Savanne nur sehr schwer zu entdecken. Deswegen ist es dort in
besonderem Maße überlebenswichtig, Schallquellen schnell und zuverlässig orten zu
könnnen. Das setzt voraus, dass die irreführende Ortsinformation der Echos nicht
gewertet wird. Tatsächlich ist das auch der Fall. Wir stützen uns bei der Ortung
von Schallquellen fast ausschließlich auf den schnellen bzw. direkten Schall, also die
ersten Wellenfronten des Signals. Dieses Phänomen wird Law of the First Wave
”
Front“ oder auch Precedence Effect“ (früher Haas Effekt“) genannt [5, 6].
”
”
Die wesentlichen und für das Verständnis der kommenden Kapitel wichtigen Punkte
lassen sich wie folgt zusammenfassen:
1. Echos sind frequenzspezifisch
2. Schnelle Echos werden unterdrückt
3. Es gibt binaurale und monaurale Echounterdrückung
Im Zentrum der vorliegenden Arbeit steht die monaurale Echounterdrückung. Es
wird zunächst ein Überblick über relevante psychophysikalische Experimente und
biologische Forschungsergebnisse geliefert. Dann wird das Modell einer möglichen
neuronalen Implementierung vorgestellt und sein analytisches und numerisches Verhalten für Klicks und Reintöne untersucht. Im letzten Kapitel werden biologische
Bedeutung und mögliche Anwendungen besprochen.
8
KAPITEL 1. ECHO UND ECHOUNTERDRÜCKUNG
Kapitel 2
Zur monauralen
Echounterdrückung
Im Folgenden sollen einige Forschungsergebnisse vorgestellt werden, die mit der monauralen Echounterdrückung in direktem Zusammenhang stehen. Die psychophysikalischen Experimente beschäftigen sich vor allem mit der Wahrnehmung von Klicks
oder kurzen Tonimpulsen in der Gegenwart von anderen Klicks oder Tönen. Der anatomische Aspekt wird durch eine Arbeit abgedeckt, die eine neuronale Verschaltung
im Hirn von Mäusen untersucht, die möglicherweise für die monaurale Echounterdrückung zuständig ist.
2.1
Psychophysikalische Experimente
Den ersten und deutlichsten Hinweis auf die Existenz der monauralen Echounterdrückung finden wir in einer Veröffentlichung aus dem Jahre 1963 [10]. Harris et al.
von den Bell Laboratories untersuchten die binaurale Wechselwirkung eines einzelnen Klicks mit einem Klickpaar.
Den Probanden werden über einen Kopfhörer insgesamt drei Klicks vorgespielt. Auf
einem Ohr hören sie ein Klickpaar, bestehend aus Klick B und Klick C in einem
Abstand von entweder 0.5, 1, 2, 4 oder 8 Millisekunden; auf dem anderen Ohr einen
einzelnen Klick, A genannt, dessen Zeitpunkt sie selbst bestimmen können. Aufgabe
der Versuchspersonen ist es nun, das Schallereignis zu zentrieren, das heisst, den
einzelnen Klick (Klick A) mit dem Klickpaar (Klick B und C) so abzugleichen, dass
sie die Klicks gleichzeitig wahrnehmen. Man erwartet, dass Klick A teilweise mit
9
10
KAPITEL 2. ZUR MONAURALEN ECHOUNTERDRÜCKUNG
Klick B und teilweise mit Klick C synchronisiert wird.
In Abbildung 2.1 sehen wir, dass die Ergebnisse weitgehend den Erwartungen entsprechen. Auffallend ist allerdings eine Ausnahme: wenn Klick B und C einen Abstand von 2 ms haben, wird Klick A überraschenderweise nur mit Klick B synchronisiert. In der Abbildung lässt sich der Zusammenhang im Detail nachvollziehen:
aufgetragen ist die Zahl der Zentrierungen von Klick A über den relativen interauralen Zeiten zwischen den Klicks A und B für die fünf untersuchten Interklickintervalle der Klicks B und C. Die Pfeile an den x-Achsen markieren die Zeitpunkte
von Klick B und C. Dort häufen sich die Zentrierungen. Im Fall 3 allerdings, dem
Interklickintervall von 2 ms, bleiben Zentrierungen zum Zeitpunkt von Klick C aus.
Abbildung 2.1: Die Ergebnisse von Harris et al. [10]. Aufgetragen ist die Anzahl der Zentrierungen von Klick A über dem zeitlichen Abstand zwischen Klick A
und Klick B. Die Pfeile unter den x-Achsen markieren die Zeitpunkte der Klicks
B und C. Erwartungsgemäß häufen sich dort die Zentrierungen von Klick A.
Überraschenderweise wird Klick A nicht mit Klick C synchronisiert, wenn Klick
C 2 ms nach Klick B erfolgt. Klick C ist also unhörbar, wenn der zeitliche Abstand
zum vorhergehenden Klick B 2 ms beträgt.
Offensichtlich nehmen die Versuchspersonen Klick C bei einer Verzögerung von 2 ms
nicht wahr. Bei einem Abstand von 2 ms unterdrückt Klick B also die Wahrnehmung von Klick C. Wesentlich ist, dass bei den beiden kürzeren Zeiten von 0.5 und
1 ms Klick C bereits wahrgenommen wird. Daher kann die Unterdrückung des zwei-
2.1. PSYCHOPHYSIKALISCHE EXPERIMENTE
11
ten Klicks bei 2 ms nicht durch eine neuronale Refraktärzeit erklärt werden. Auch
mechanische Eigenschaften der Basilarmembran können die Autoren als Ursache
ausschliessen.
Als Erklärung schlagen sie eine Art neuronales Tor vor, welches sich ungefähr 1 ms
nach Beginn der neuronalen Aktivität schließt und sich nach rund 2 ms wieder öffnet.
Nach den Überlegungen der Autoren könnte solch ein Mechanismus zum Beispiel
durch Selbstinhibition der vom ersten Stimulus angeregten Neuronen realisiert werden. Er müsste greifen, bevor die Signale der beiden Ohren zusammengeführt werden, d.h. spätestens auf der Ebene des Nucleus Olivaris Superioris, dem zweiten
neuronalen Kern nach der Hörschnecke. Als Ort des Mechanismus wird insbesondere der Nucleus Cochlearis in Erwägung gezogen, also der erste Kern direkt nach der
Cochlea.
Die Idee des neuronalen Tores wird von Zurek 1980 zur Erklärung seiner Forschungsergebnisse [18] aufgegriffen. Zurek spielt den Versuchspersonen zunächst
über Kopfhörer drei Paare kurzer Rauschimpulse vor. Die einzelnen Paare haben
einen Abstand von 400 ms, die Verzögerung ∆t zwischen den Rauschimpulsen eines
Paares wird zwischen 1 ms und 11 ms eingestellt. In einem der drei Paare wird jetzt
der zweite der Rauschimpulse solange verändert, bis der Proband die Veränderung
feststellen kann. Diese Veränderung erfolgt an beiden Ohren unterschiedlich, so dass
die Wahrnehmung der Veränderung ein Maß für die Fähigkeit ist, nach einem ersten, für beide Seiten identischen Signal Signalunterschiede zwischen den beiden
Ohren zu bemerken. In zwei Versuchsserien wurde die Empfindlichkeit bezüglich
Zeitverschiebungen und Amplitudenveränderungen untersucht. Am geringsten ist
die Empfindlichkeit in beiden Fällen für ein ∆t von 2 ms. Hier werden Verschiebungen von bis zu 620 µs (≥ 30% von ∆t!) und Amplitudenänderungen von bis zu 12 dB
nicht wahrgenommen.
Zu ähnlichen Ergebnissen kommt Zurek in einer weiteren Versuchsanordnung. Statt
der Impulspaare wird hier ein 50 ms dauernder Rauschimpuls verwendet. Innerhalb
des Rauschimpulses wird ein 5 ms langes Teilintervall manipuliert, und zwar wieder
auf beiden Seiten unterschiedlich. Der Zeitpunkt, zu dem diese Manipulation einsetzt, variiert zwischen 0 ms und 45 ms nach Beginn des Signals. Wie zuvor ist es
Aufgabe der Versuchsperson zu erkennen, ob das sich rechte Signal vom linken unterscheidet. Analog zu obigem Experiment findet die Manipulation einmal über eine
zeitliche Verschiebung und in einer weiteren Serie über eine Änderung der Amplitude statt. Am geringsten ist die Empfindlichkeit in den ersten 1 - 10 ms nach dem
Beginn des Rauschens. Die in diesem Zeitraum nicht wahrgenommenen maximalen Verschiebungen bzw. Amplitudenänderungen betragen bis zu 620 µs respektive
14 dB.
12
KAPITEL 2. ZUR MONAURALEN ECHOUNTERDRÜCKUNG
Im Kern der Versuchsergebnisse steht also, dass die interaurale Empfindlichkeit nach
dem Einsetzen eines Signals ein nichtmonotones Verhalten zeigt. Für den Zeitraum
von etwa 0.5 bis 10 ms nach dem Beginn ist die Empfindlichkeit reduziert, mit einer
maximalen Reduzierung im Bereich von 2 - 3 ms.
Wie bereits angedeutet können die Ergebnisse ebenfalls durch die Existenz des von
Harris vorgeschlagenen neuronalen Tores erklärt werden, also einer verzögerten Inhibition, die durch das Einsetzen des Signals ausgelöst wird. Nach Zurek kann der
Precedence Effect“, das heisst die Tatsache, dass die Ortung einer Schallquelle von
”
den ersten Schallwellen dominiert wird, als Resultat dieses vorübergehenden Verlustes an Empfindlichkeit verstanden werden. Erwähnenswert ist in diesem Zusammenhang eine Arbeit von Rakerd und Hartmann, in der festgestellt wird, dass der Pre”
cedence Effect“ wesentlich von einem abrupten Beginn des Tonsignals abhängt [13].
Es wäre denkbar, dass der von Harris und Zurek postulierte Mechanismus der Inhibition durch einen nur langsam hörbar werdenden Ton, der sich gewissermaßen
einschleicht“, nicht oder nur teilweise ausgelöst wird. Dadurch würde der Prece”
”
dence Effect“ wenn nicht vollkommen ausgelöscht so doch zumindest abgeschwächt
werden.
Etwas später, in den Jahren 1983 bis 1988, untersucht E. R. Hafter gemeinsam mit
verschiedenen Kollegen in einer ganzen Reihe von Veröffentlichungen die Wahrnehmung von Klicks in Klickserien, speziell in Abhängigkeit der Klickraten [7–9].
Zunächst kommen sie dort zu dem Ergebnis, dass bei Raten unter 100/s (also bei
Interklickintervallen von 10 ms und mehr) die Information der Klicks vollständig erhalten bleibt, wohingegen bei höheren Raten (bei Interklickintervallen von weniger
als 10 ms) ein Informationsverlust auftritt, der mit zunehmender Rate der Klicks
steigt. Auch wenn der Begriff der Information nicht eindeutig definiert wird, bleibt
die Tatsache der stärkeren gegenseitigen Beeinflussung der Klicks mit steigender Rate bestehen. Die Autoren zeigen, dass sich der gemessene Einfluss der Klicks aufeinander qualitativ von einem theoretisch möglichen Einfluss von sowohl neuronalen Refraktärzeiten, als auch Schmalbandfiltern und der Nicht-Unabhängigkeit aufeinander
folgender interner Rauschproben unterscheidet. Erklärt werden könnte das Verhalten laut Hafter und Kollegen jedoch durch einen neuronalen Sättigungsprozess“.
”
In den nachfolgenden Untersuchungen stellen Hafter und Kollegen fest, dass die
von ihnen beschriebene Sättigung in einzelnen Frequenzbändern stattfindet, d.h.
frequenzspezifisch ist. Auch beeinflussen interaurale Unterschiede der Signale den
Mechanismus nicht. Schließlich kommen die Autoren zu dem Schluss, dass die untersuchte Sättigung dem Precedence Effect“ nicht zugrunde liegt und es sich um
”
ein monaurales Phänomen handeln muss. Erstaunlicherweise geben sie dem Prozess
den Namen Binaurale Adaptation“. Den Sitz der Binauralen Adaptation“ vermu”
”
2.1. PSYCHOPHYSIKALISCHE EXPERIMENTE
13
ten sie im Nucleus Cochlearis, genau dem Ort also, den Harris für sein neuronales
Tor vorschlägt.
Die bis jetzt vorgestellten Mechanismen des neuronalen Tores bzw. der Selbstinhibition und des Sättigungsprozesses sind allesamt in den ersten 10 ms nach Beginn eines
Schallereignisses aktiv und unabhängig von interauralen Merkmalen. Daher werde
ich sie zur besseren Verständlichkeit im Folgenden unter dem Begriff der monauralen
Echounterdrückung zusammenfassen.
Es gibt noch zahlreiche interessante psychophysikalische Experimente zur Wahrnehmung von Klicks und Tönen in Gegenwart anderer Schallereignisse, die in den
Standardwerken der Psychoakustik nachgelesen werden können [1,3,12,17,19]. Meist
liegt der Focus der Arbeiten jedoch entweder auf der Untersuchung binauraler Effekte oder auf einem anderen als dem für uns interessanten Zeitrahmen von 10 ms nach
Beginn eines Signals. Das macht es sehr mühsam, relevante Informationen zu extrahieren. Direkte Widersprüche zu dem vorgeschlagenen Mechanismus der monauralen
Echounterdrückung habe ich in diesen Quellen allerdings nicht gefunden. Insbesondere besteht kein Widerspruch zwischen der monauralen Echounterdrückung und
dem Clifton-Effect“, in dem es um spezielle Umstände geht, unter denen Echos
”
hörbar werden [2].
Um die Problematik vieler Veröffentlichungen zu veranschaulichen, möchte ich hier
noch auszugsweise eine Veröffentlichung von Freyman, Clifton und Litovsky [4] wiedergeben. Die Autoren beschreiben drei Experimente, von denen uns nur das erste, das Screening für die beiden anderen Experimente, interessiert: Die Versuchsperson sitzt in einem schalltoten Raum zwischen zwei Lautsprechern. Mit leichter
Verzögerung geben die Lautsprecher je einen Klick wieder. Die Verzögerung variiert
zwischen 2 und 14 ms und die Versuchsperson gibt an, ob sie ein Echo hört oder
nicht. Die Ergebnisse der neun Versuchspersonen sind in Abbildung 2.2 zusammengefasst.
Aufgetragen ist der Prozentsatz der Versuchsdurchläufe, in denen die Versuchspersonen ein Echo wahrnehmen, über der Verzögerung zwischen den beiden Lautsprechern für zwei verschiedene Bedingungen. Erst wurden den Versuchspersonen die
zwei Klicks nur einmal vorgespielt (NC, für no conditioning“), dann wurden die
”
Versuchspersonen mit neun Klicks bei einer Rate von 4/s auf den Testklick eingestimmt (R4N9 für rate 4 number 9“). Man sieht, wie die - wenn hier auch nicht
”
eindeutig als monaural klassifizierbare - Echounterdrückung ihre höchsten Werte bei
einer Verzögerung von 2 - 6 ms erreicht und nach 10 ms faktisch auf null reduziert ist.
Ein Trainingseffekt ist ebenfalls zu beobachten. Festzuhalten ist, dass die Ergebnisse
nicht im Widerspruch zu obigen Ergebnissen und Postulaten stehen.
14
KAPITEL 2. ZUR MONAURALEN ECHOUNTERDRÜCKUNG
Abbildung 2.2: Screening von Freyman, Clifton und Litovsky [4]. Aufgetragen ist
der Prozentsatz der Versuche, in denen ein Echo wahrgenommen wurde, über der
Verzögerung der Echos. Gezeigt sind Daten von neun Personen für zwei Versuchsanordnungen: Ohne vorhergehende Einstimmung ( NC“) und mit Einstimmung auf
”
den Versuch ( R4N9“). Bei den meisten Versuchspersonen ist ein Trainingseffekt zu
”
beobachten: Echos werden mit geringerer Wahrscheinlichkeit wahrgenommen, wenn
die Probanden auf den Versuch eingestimmt wurden.
Zur Problematik der Arbeit sind mehrere Punkte zu bemerken. Zunächst sind die
Schwankungen zwischen den Versuchspersonen beträchtlich. Desweiteren sortieren
die Autoren zwei der Versuchspersonen aus, weil der zu untersuchende Effekt (der
Einfluss des Trainings auf die Wahrnehmung der Echos) nicht den Erwartungen
entsprechend zu Tage tritt. Von den verbliebenen sieben Versuchspersonen werden
für die weiterführenden Experimente vier ausgewählt, d.h. die Gesamtzahl der Versuchspersonen ist recht gering. Schließlich schreiben die Autoren selbst, dass sich
die Ergebnisse für den Fall, dass der schnellere Lautsprecher nicht der linke (wie
in den dokumentierten Experimenten) sondern der rechte war, signifikant von den
oben dargestellten Ergebnissen unterschieden, gehen darauf allerdings weiter nicht
2.2. BIOLOGISCHE EVIDENZ
15
ein.
Vor allem die großen Schwankungen von Individuum zu Individuum in Verbindung
mit der meist geringen Anzahl an Probanden sind Gründe, psychophysikalische Experimente zurückhaltend zu bewerten. Im Fall der monauralen Echounterdrückung
gibt es jedoch noch einen handfesten biologischen Hinweis, der im nächsten Abschnitt vorgestellt werden soll.
2.2
Biologische Evidenz
Um verstehen zu können, wie akustische Information tatsächlich im Gehirn verarbeitet wird, sind neurophysiologische Experimente entlang der neuronalen Pfade
des Gehörs unabdingbar. Bei Säugetieren ist der Nucleus Cochlearis der erste Nervenknoten nach der Cochlea (Hörschnecke). Der auditorische Nerv eines Ohres läuft
also aus der Cochlea direkt in den Nucleus Cochlearis. Von dort werden die Reize
eines Ohres nach beiden Seiten zu den höheren Zentren weitergeleitet. Der Nucleus
Cochlearis ist also der einzige Kern, in dem ausschließlich monaurale Information verarbeitet wird. Aus diesem Grund würde er sich als Ort für die monaurale
Echounterdrückung besonders eignen.
Wickesberg und Oertel [16] dokumentieren in ihrer Veröffentlichung zwei elektrophysiologische Versuchsreihen am Nucleus Cochlearis von Mäusen. Um ihre Experimente verständlich darstellen zu können, muss zunächst näher auf den Aufbau des
Nucleus Cochlearis eingegangen werden.
Abbildung 2.3A stellt die Reproduktion einer Aufnahme eingefärbter Zellkörper und
Nervenfasern dar, in Abbildung 2.3B sieht man schematisch die Verschaltung im
Nucleus Cochlearis. In beiden Abbildungen ist zu erkennen, dass der Nucleus Cochlearis in zwei funktionelle Untereinheiten unterteilt werden kann, den Anteroventralen Nucleus Cochlearis und den Dorsalen Nucleus Cochlearis (i. d. Abb. AVCN und
DCN). Beide Untereinheiten sind tonotop aufgebaut, d.h. nach Frequenzen geordnet
(in Abb. 2.3B l“ und h“ für low“ bzw. highfrequency“). Der auditorische Nerv
”
”
”
”
(i.d. Abb. VIII N.) ist mit beiden Untereinheiten tonotop verbunden. Zusätzlich existiert eine Projektion vom dorsalen zum anteroventralen Teil des Nucleus Cochlearis.
Die Projektion ist frequenzspezifisch, da die Neurone im DCN und ihre Zielzellen im
AVCN von den gleichen Fasern des auditorischen Nervs erregt werden [15].
Im ersten Experiment charakterisieren die Autoren Art und genaue Lokalisierung
der Verbindung vom DCN zum AVCN. Dafür werden mittels einer Injektion von
Glutamat (bekannt als Geschmacksverstärker) Zellen in verschiedenen Bereichen
des DCN erregt und gleichzeitig das intrazelluläre Potential je einer Zelle im AV-
16
KAPITEL 2. ZUR MONAURALEN ECHOUNTERDRÜCKUNG
CN gemessen. Die untersuchten Zellen im AVCN sind sämtlich Ziel inhibitorischer
Signale aus dem DCN. Der Bereich im DCN, der direkt oder indirekt mit den beobachteten Neuronen im AVCN in Verbindung steht, das sogenannte afferente Feld“,
”
ist stets gleich groß.
Ziel des zweiten Experiments ist die Aufklärung der zeitlichen Koordinierung der
Inhibition im Nucleus Cochlearis. Wie zuvor werden die Zellpotentiale verschiedener
Neurone im AVCN gemessen, diesmal jedoch werden sowohl DCN als auch AVCN
über eine Elektrode getrennt voneinander stimuliert. Die inhibitorischen postsynaptischen Potentiale erreichen den AVCN rund 2 ms nach der Stimulation des auditorischen Nervs, die exzitatorischen postsynaptischen Potentiale treffen mit einer
Verzögerung von 0.7 ms ein.
Wickesberg und Oertel kommen zu dem Schluss, dass Aktionspotentiale im auditorischen Nerv eine Inhibition auslösen, die spätere Signale unterdrücken kann. Die
Unterdrückung ist maximal, wenn der zeitliche Abstand zwischen den Signalen im
auditorischen Nerv 2 ms beträgt.
Damit decken sich die Schlussfolgerungen von Wickesberg und Oertel [16] vollständig
mit den Eigenschaften der monauralen Echounterdrückung. Im nächsten Kapitel
soll daher basierend auf den soeben beschriebenen Ergebnissen das Modell einer
möglichen neuronalen Realisierung der monauralen Echounterdrückung untersucht
werden.
2.2. BIOLOGISCHE EVIDENZ
Abbildung 2.3: Verschaltung im Nucleus Cochlearis gemäß Wickesberg und Oertel [16]. Links als eine Abbildung eingefärbter Zellen aus den Versuchen, rechts als
schematische Zeichnung. In Abbildung A ist sehr schön zu erkennen, wie die Fasern
des auditorischen Nervs sich aufspalten und sowohl den dorsalen (DCN) als auch
den anteroventralen (AVCN) Teil des Nucleus Cochlearis innervieren. Die mit den
eingefärbten Fasern verbundenen Zellen erscheinen als schwarze Punkte. Man sieht,
dass die von einem Nervenbündel des auditorischen Nervs innervierten Bereiche von
AVCN und DCN wieder untereinander verbunden sind. Abbildung B zeigt den gleichen Zusammenhang schematisch. Der Nucleus Cochlearis ist in beiden Untereinheiten tonotop, das heisst nach Frequenzen geordnet (siehe Beschriftung tonotopic
”
axes“, l“ und h“ für low“ bzw. high frequency“). Der auditorische Nerv kontak”
”
”
”
tiert Neurone im DCN (schwarzes Quadrat) und im AVCN (schwarzer Stern bzw.
Kreis). Die Verbindung zwischen DCN und AVCN besteht genau zwischen den Neuronen, die von den gleichen Fasern des auditorischen Nervs erregt werden. Da alle
miteinander verbundenen Nervenzellen auf diese Weise nur von einer Frequenz angesprochen werden, ist die Verschaltung frequenzspezifisch. Die vom auditorischen
Nerv ausgehenden Verbindungen sind exzitatorisch (leere Dreiecke), die Projektion
vom DCN zum AVCN ist inhibitorisch (ausgefüllte Dreiecke).
17
18
KAPITEL 2. ZUR MONAURALEN ECHOUNTERDRÜCKUNG
Kapitel 3
Das Modell
Zunächst soll hier konkret der Aufbau des vorgeschlagenen Modells erläutert werden, dann sein Verhalten. Dazu wird, um das Verhalten qualitativ verstehen zu
können, ein Netzwerk von Poisson-Neuronen betrachtet, anschliessend werden, für
eine näher an der Wirklichkeit liegende Beschreibung, Spike-Response-Zellen verwendet. In beiden Fällen interessiert uns speziell das Verhalten für Klickpaare und
für einen einsetzenden Reinton.
3.1
Aufbau
Der Aufbau des Modells ist denkbar einfach (s. Abb. 3.1). Analog zur von Wickesberg und Oertel vorgeschlagenen Verschaltung im Nucleus Cochlearis gibt es im
Modell drei Populationen von Neuronen: die Neurone des auditorischen Nervs, die
des anteroventralen und die des dorsalen Nucleus Cochlearis.
Die Neurone des auditorischen Nervs dienen in unserem Modell als Input. Jedes
Neuron des auditorischen Nervs ist exzitatorisch mit je genau einem Neuron der
anderen beiden Populationen verbunden. Je eine Zelle des DCN ist inhibitorisch
mit einer Zelle des AVCN verbunden, im numerischen Teil mit mehreren Zellen. Das
Output unseres Modells, die Aktivität der Neurone des AVCN, wird also bestimmt
von einer Stimulation aus dem auditorischen Nerv und einer Hemmung aus dem
DCN.
Da Echos frequenzspezifisch sind, gehen wir von einer Frequenztrennung innerhalb
der drei tonotopen Neuronpopulationen aus. Je drei verknüpfte Neurone bilden so
einen Neuronkanal i, der nur Signale einer bestimmten Frequenz f verarbeitet. Im
19
20
KAPITEL 3. DAS MODELL
numerischen Teil bildet die Projektion vom DCN zum AVCN wie erwähnt eine Ausnahme. Da eine strikte Frequenztrennung biologisch kaum realisierbar ist, nehmen
wir eine Streuung der Inhibition in benachbarte Frequenzkanäle an (gestrichelte
Linien in Abb. 3.1).
Abbildung 3.1: Verschaltung im Nucleus Cochlearis. Links die bekannte Skizze von
Wickesberg und Oertel, rechts das Modell für einen Frequenzkanal. Im rechten Bild
sind die drei miteinander verbundenen Neuronpopulationen und ihre Verbindungen
zu sehen, exzitatorische Synapsen sind durch kleine leere Kreise symbolisiert, inhibitorische durch kleine ausgefüllte Kreise; die gestrichelten Verbindungen sind nur
in den numerischen Rechnungen von Relevanz.
Zum Ziele der exakten Lösbarkeit wollen wir uns jedoch im nächsten Abschnitt
auf strikte Frequenztrennung beschränken. Als Folge reicht die Beschreibung eines
einzigen Frequenzkanals für die Charakterisierung des ganzen Modells.
3.2
Analytik
Ein reales Neuron ist, grob gesprochen, ein Schwellenelement. Exzitatorischer und
inhibitorischer Input summieren sich im Zellpotential und ein Spike wird abgefeuert, falls das Potential eine bestimmte Schwelle überschreitet. Die Schwelle stellt
eine Nichtlinearität im System dar und macht eine analytische Lösung unmöglich.
Deswegen werden wir ein auf Feuerraten basierendes Modell verwenden, das auf
die Berücksichtigung einer Schwelle verzichtet und im Gegenzug eine exakte Lösung
ermöglicht. In dem Modell wird angenommen, dass dem Feuern der Neurone ein
stochastischer Prozess, genauer, ein inhomogener Poisson-Prozess zugrunde liegt.
3.2. ANALYTIK
21
Ein Poisson-Prozess wird durch drei Eigenschaften definiert: erstens ist die Wahrscheinlichkeit im Intervall t + ∆t einen Spike zu finden gleich λ(t)∆t, zweitens ist die
Wahrscheinlichkeit in diesem Intervall zwei oder mehr Spikes zu finden o(∆t) und
drittens sind Ereignisse in disjunkten Intervallen unabhängig. Ist λ(t) eine Konstante, liegt ein homogener Poisson-Prozess vor, ist es eine Funktion von t haben wir es
mit einem inhomogenen Poisson-Prozess zu tun.
Ein Neuron, dessen Feuerverhalten mit einem inhomogenen Poisson-Prozess beschrieben werden kann, wird Poisson-Neuron genannt. In einem Poisson-Neuron
i ist die Ratenfunktion durch
λi (t) = ν 0 + v(t) = ν 0 +
X
Jij (tfj ) (t − tfj )
(3.1)
j,f
definiert [11]. ν 0 ist die spontane Feuerrate und v(t) steht für das Zellpotential. Es
ist bestimmt durch die Summe über alle Inputneurone j und ihre Feuerzeiten tfj (im
Summenzeichen mit f abgekürzt). Jij steht für die Stärke des Input von Neuron j;
(t) steht für den Einfluss eines Spikes im Inputneuron j auf das Zellpotential v(t)
des betrachteten Neurons i, das postsynaptische Potential.
Das postsynaptische Potential wird für den exzitatorischen Input allgemein mit der
Alphafunktion beschrieben,
(t) = (t/τ ) exp(1 − t/τ )
(3.2)
mit τ als charakteristischer Zeit üblicherweise im Bereich von Millisekunden. Aufgrund der Kausalität verschwindet (t) für t < 0. Analog zu den exzitatorischen
postsynaptischen Potentialen (EPSP) wollen wir auch inhibitorische postsynaptische Potentiale (IPSP) mit der Alphafunktion beschreiben. Ferner setzen wir ohne
Beschränkung der Allgemeinheit die spontanen Feuerraten auf null.
In Gleichung (3.1) wird über Spikes summiert. Es kann gezeigt werden, dass es legitim ist, hier zu einer Integration über den Erwartungswert der Spikes überzugehen
[11]. Als Konsequenz nehmen wir an, dass die Ratenfunktion für die Neurone im
auditorischen Nerv proportional zum Eingangssignal Fin (t) ist, das heisst
λ0 (t) = α Fin (t).
(3.3)
Ferner folgt für die Ratenfunktionen in den anderen beiden Neuronpopulationen,
dass sie beschrieben werden können durch
22
KAPITEL 3. DAS MODELL
Z
∞
ds exzit. (s) λ0 (t − ∆t01 − s)
λ1 (t) = J01
(3.4)
0
im dorsalen Teil des Nucleus Cochlearis und analog dazu im anteroventralen Teil
mit
Z
∞
Z
∞
ds inhib. (s) λ1 (t − ∆t12 − s).
ds exzit. (s) λ0 (t − ∆t02 − s) + J12
λ2 (t) = J02
0
0
(3.5)
∆tij ist dabei die axonale Verzögerung zwischen Neuron i und j. Für die uns interessierende Aktivität im anteroventralen Teil des Nucleus Cochlearis als Funktion
des Input Fin (t) ergibt sich somit:
∞
Z
λ2 (t) = α J02
Z0 ∞
+ α J01 J12
0
ds exzit. (s) Fin (t − ∆t02 − s) +
Z ∞
ds exzit. (s)
ds0 inhib. (s0 ) Fin (t − ∆t01 − ∆t12 − s − s0 )
0
(3.6)
Die Lösungen dieser Gleichung für verschiedene Inputfunktionen werden in den
nächsten beiden Abschnitten vorgestellt. Dort bezeichnet stets λ0 (t) die Ratenfunktion der Neurone im auditorischen Nerv, λ1 (t) die Ratenfunktion der Neurone im
DCN und λ2 (t) die Ratenfunktion der Neurone im AVCN.
3.2.1
Lösung für einen Klick
Als erstes soll uns die Lösung für einen Klick interessieren. Ein idealer Klick ist
unendlich kurz, bleibt aber hörbar. Da im Ohr das Empfinden der Lautstärke über
eine Integration erfolgt, heisst das, dass das Integral eines Klick über der Zeit nicht
verschwindet. Eine Deltafunktion als Input ist somit für unsere Zwecke perfekt. Es
sei also
λ0 (t) = α δ(t).
(3.7)
Nehmen wir zunächst an, die charakteristischen Zeiten von EPSP und IPSP, τexzit.
und τinhib. , seien beide identisch τ . Mit Gleichung (3.7) ergibt (3.6) sich dann zu:
3.2. ANALYTIK
λ2 (t) = α J02
23
(t − ∆t02 ) 1− t−∆t02
(t − ∆t012 )3 2− t−∆t012
τ
τ
e
e
+ α J01 J12
,
τ
6 τ2
(3.8)
mit ∆t012 = ∆t01 + ∆t12 . Der erste Term spiegelt den exzitatorischen, der zweite
den inhibitorischen Einfluss auf die Spikerate wider. Aufgrund der Kausalität gilt
der exzitatorische Term nur für Zeiten t > ∆t02 und der inhibitorische Term nur für
Zeiten t > ∆t012 . Gleichung (3.8) lässt sich zu
λ2 (t) = α J02 (t − ∆t02 ) + α J01 J12
e1 (t − ∆t012 )2
(t − ∆t012 )
6τ
(3.9)
vereinfachen. Der exzitatorische Teil hat trivialerweise genau die Form eines postsynaptischen Potentials. Die Inhibition hat ebenfalls die Form einer Alphafunktion,
jedoch zeitlich verschmiert. Die Lösung verliert erheblich an Übersichtlichkeit, wenn
sich die charakteristischen Zeiten von Inhibition und Exzitation unterscheiden:
J01 J12
λ2 (t) = α J02 (t − ∆t02 ) + α
×
τexzit. τinhib.
(
"
#
t−∆t
t − ∆t012
2
2− τ 012
inhib.
e
2 −
3 +
1
1
1
1
τexzit. − τinhib.
τexzit. − τinhib.
"
#)
t−∆t
t − ∆t012
2
2− τ 012
exzit.
+e
.
2 +
3
1
1
1
1
τexzit. − τinhib.
τexzit. − τinhib.
(3.10)
In Abbildung 3.2 sind die beiden Lösungen im Vergleich zu ihrem exzitatorischen
Einfluss auf die Feuerrate aufgetragen; die Parameter sind biologisch plausibel und
entsprechen soweit anwendbar den später im numerischen Teil verwendeten Werten.
Die grüne Kurve soll lediglich dem besseren Vergleich dienen und stellt den rein
exzitatorischen Teil der Lösung dar, also den Verlauf eines EPSP. Die rote und die
blaue Kurve sind Lösungen von Gleichung (3.6). Die rote Kurve stellt die Lösung
für identische charakteristische Zeiten von Inhibition und Exzitation dar, die blaue
Kurve erhält man bei einer Vergrößerung der charakteristischen Zeit der Inhibition. In beiden Fällen wird die abfallende Flanke des EPSP durch den Einfluss der
Inhibition deutlich verschoben, das Signal also verschmälert. Wichtig ist, dass ein
ausgeprägtes Minimum der Feuerrate existiert. Für identische charakteristische Zeiten liegt es in Abbildung 3.2 bei ca. 2.5 ms, für die vergrößerte Zeit der Inhibition
verschiebt sich das Minimum nach rechts (hier auf ca. 3.5 ms) und fällt stärker aus.
24
KAPITEL 3. DAS MODELL
Abbildung 3.2: Lösungen von Gleichung (3.6) für eine Deltafunktion. Aufgetragen
ist die relative Feuerrate in willkürlichen Einheiten über der Zeit in Millisekunden.
Nach einem kurzen Anstieg sinkt die Feuerrate kurzzeitig unter die Spontanaktivität auf ein ausgeprägtes Minimum. Dieses Minimum verschiebt und verstärkt
sich für größere charakteristische Zeiten der Inhibition. Nachfolgende Reize werden zu Zeiten einer negativen relativen Feuerrate unterdrückt. Das Verhalten deckt
sich also mit den psychophysikalischen Experimenten. α = J01 = J02 = 1, J12 = −0.75,
∆t02 = 0.2 ms, ∆t012 = 0.4 ms, τexzit. = 0.5 ms. Für die rote Kurve gilt τinhib. = 0.5 ms,
für die blaue τinhib. = 2 ms.
Das Verhalten für Klickpaare kann aus dem Verhalten für Klicks abgeleitet werden, da das Poisson-Neuron ein lineares Modell ist. Die Lösung für ein Klickpaar
ist aus diesem Grund die Summe der beiden Lösungen für die einzelnen Klicks. Aus
Abbildung 3.2 ist somit ersichtlich, dass ein Klick den nachfolgenden unterdrückt.
Der Zeitpunkt der maximalen Unterdrückung verschiebt sich mit zunehmender charakteristischer Zeit der Inhibition nach rechts, zugleich wird die Unterdrückung
stärker. Eine schnelle Unterdrückung ist bei ansonsten gleichen Parametern also
immer schwächer als eine langsame Unterdrückung.
Ob im biologischen System eher eine schnelle, schwächere oder eine langsamere,
stärkere Unterdrückung realisiert ist, wird vor allem von der Wahrnehmungsschwelle
für Feuerraten abhängen. Je empfindlicher wir eine Steigerung der Rate wahrnehmen
können, desto stärker, ergo langsamer, muss in dem Modell die Inhibition sein, um
3.2. ANALYTIK
25
den Einfluss eines nachfolgenden Klicks annullieren zu können.
Zusammenfassend stellen wir fest, dass die Lösung unseren Vorstellungen aus den
psychophysikalischen Experimenten entspricht. Ein Klick unterdrückt nachfolgende Klicks, und zwar maximal bei einem Klickabstand von wenigen Millisekunden.
Zusätzlich wird das von einem einzelnen Klick verursachte Signal durch die Unterdrückung schmäler, also verschärft.
3.2.2
Lösung für einen einsetzenden Reinton
Der Reinton in vereinfachter Darstellung
In erster Näherung lässt sich ein einsetzender Reinton durch eine Heaviside-Funktion
beschreiben: Erst (für t < 0) nichts (0), dann (für t > 0) ein Signal (1). Die Feuerrate
im auditorischen Nerv sei also im folgenden
λ0 (t) = α Θ(t).
(3.11)
Damit wird (3.6) gelöst von
t−∆t02
1− τ
1
exzit.
λ2 (t) = α J02 τexzit. e − (t − ∆t02 ) − e
+
(
t−∆t012
τexzit. 2 2
2
t − ∆t012
1
2−
+ α J01 J12
e τinhib. − e τexzit.
+
+
+
τinhib.
a3 τexzit. a2
a2 τexzit.
)
t−∆t
t − ∆t012
2
1
2− τ 012
inhib.
+
−
− (t − ∆t012 ) τinhib.
(3.12)
+e
a3 τexzit. a2
a
mit
a=
1
τexzit.
−
1
τinhib.
.
(3.13)
Gleichung (3.12) verkürzt sich im Fall identischer charakteristischer Zeiten für Inhibition und Exzitation zu:
26
KAPITEL 3. DAS MODELL
h
i
t−∆t02
λ2 (t) = α J02 τ e1 − (t − ∆t02 ) − e1− τ
+
(
t−∆t012
(t − ∆t012 )3 (t − ∆t012 )2
2 2
2−
τ
+ α J01 J12 e τ − e
+
−
6τ
2
)
t−∆t012
+ e2− τ
(t − ∆t012 ) τ − τ 2 .
(3.14)
In (3.12) und (3.14) spiegelt wie zuvor der erste Summand den exzitatorischen, der
zweite den inhibitorischen Einfluss auf die Spikerate wider. Auch hier gilt aufgrund
der Kausalität der exzitatorische Term nur für Zeiten t > ∆t02 und der inhibitorische
Term nur für Zeiten t > ∆t012 .
Abbildung 3.3 zeigt zwei Lösungen und ihren exzitatorischen Anteil. Auch hier steht
die grüne Kurve wieder für den rein exzitatorischen Einfluss der Lösungen auf die
Feuerrate und die rote bzw. blaue Kurve für eine Lösung mit identischen bzw. verschiedenen charakteristischen Zeiten von Inhibition und Exzitation; wieder sind alle
Parameter mit den später im numerischen Teil verwendeten vergleichbar.
Die Exzitation alleine führt zu einer wachsenden Feuerrate, die rund 4 ms nach
Beginn des Signals ihr Maximum erreicht. Findet Inhibition statt, ändert sich der
Verlauf der Feuerrate deutlich. Steigt sie zunächst noch kurz an, fällt sie nach dem
Greifen der Inhibition scharf ab: hier wächst die Inhibition stärker als die Exzitation.
Dann steigt die Feuerrate wieder an, erreicht ein Maximum und fällt schließlich auf
einen Gleichgewichtswert. Für unterschiedliche charakteristische Zeiten von Inhibition und Exzitation ist ein Maximum in der Feuerrate besser sichtbar, da in diesem
Fall die Exzitation ihr Maximum deutlich schneller erreicht als die Inhibition.
Ein einsetzendes konstantes Signal führt also nach einem kurzen Anstieg zunächst
zu einem Absinken der Feuerrate bevor sie für große Zeiten auf einen Gleichgewichtswert steigt. Das Verhalten deckt sich qualitativ mit unseren Erwartungen, das heisst
den psychophysikalischen Experimenten: nachdem ein Signal erkannt wird (kurzer
Anstieg der Feuerrate), ist die Wahrnehmung kurz gestört (relative Feuerrate negativ), wonach sich ein Gleichgewichtszustand einstellt.
Die bisherigen Ergebnisse sind vielversprechend, unklar ist jedoch, ob sie relevant
sind. Denn die Modellierung eines einsetzenden Reintons durch eine HeavisideFunktion ist ausgesprochen grob, es ist keinerlei Phaseninformation enthalten. In
der Realität aber liegt natürlich kein konstantes Signal, sondern eine sinusförmige
Schwingung vor. Diese soll in den folgenden Rechnungen berücksichtigt werden.
3.2. ANALYTIK
27
Abbildung 3.3: Lösungen von Gleichung (3.6) für eine Heaviside-Funktion. Aufgetragen ist wie in Abbildung 3.2 die relative Änderung der Feuerrate in willkürlichen
Einheiten über der Zeit in Millisekunden. Zu Beginn des Signals steigt die Feuerrate
kurz an, fällt dann unter die Spontanfeuerrate und erreicht nach einem unterschiedlich stark ausgeprägten Maximum einen Gleichgewichtswert. Der Gleichgewichtswert
sinkt für steigende charakteristische Zeiten der Inhibition. Das Absinken der relativen Feuerrate auf einen negativen Wert kurz nach Einsetzen des Signals deckt
sich mit der in Experimenten beobachteten kurzen Störung der Wahrnehmung eines andauernden Signals bei seinem Einsetzen [18]. α = J01 = J02 = 1, J12 = −0.35,
∆t02 = 0.2 ms, ∆t012 = 0.4 ms, τexzit. = 0.5 ms. Für die rote Kurve gilt τinhib. = 0.5 ms,
für die blaue τinhib. = 1 ms.
Der Reinton als Schwingung
Ein idealer Reinton ist eine Sinusschwingung. Im menschlichen Ohr löst jedoch nur
eine Erhöhung des Luftdrucks, also nur jede zweite Halbschwingung des Tons, ein
neuronales Signal aus. Genaugenommen muss die Aktivität der Neurone im auditorischen Nerv für einen Reinton deshalb durch
λ0 (t) =
sin(ωt) für sin(ωt) > 0
0
für sin(ωt) ≤ 0
beschrieben werden. Diesen unhandlichen Ausdruck werden wir zum Ziel einer ge-
28
KAPITEL 3. DAS MODELL
schlossenen analytischen Lösung durch
λ0 (t) = α [ 1 − cos(ωt) ] Θ(t)
(3.15)
für einen einsetzenden Reinton ersetzen. In Abbildung 3.4 wird die Bedeutung dieser Annahme klar. Im Vergleich zur grünen Kurve, dem Sinus, hat die rote Kurve,
die von uns verwendete Gleichung (3.15), verschobene, breitere Maxima. In unserer
Rechnung ist der auditorische Nerv also etwas träge, reagiert mit Verspätung und
verschmiert das Signal; der wesentliche Aspekt, der Charakter einer Schwingung, ist
jedoch erhalten.
Abbildung 3.4: Die Funktionen [ 2 sin(t) ] und [ 1−cos(t) ] im Vergleich. Die von uns
verwendete Funktion setzt weniger abrupt ein als die Sinusfunktion und ist deutlich
breiter.
Die Lösungen für (3.6) mit der in (3.15) angegebenen Input-Funktion sind wesentlich
unhandlicher als zum Beispiel noch Gleichung (3.12), weshalb hier auf eine explizite
Darstellung verzichtet wird. Sie ist in Anhang A nachzulesen.
In Abbildung 3.5 sind jedoch Graphen der Lösungen zu sehen. Die Farbkodierung ist
identisch zu den vorherigen Abbildungen: Grün zeigt das Verhalten des Systems ohne
Inhibition, Rot das Verhalten im Fall gleicher charakteristischer Zeiten für Inhibition
3.2. ANALYTIK
29
Abbildung 3.5: Lösungen von Gleichung (3.6) für die Heaviside-Funktion multipliziert mit der Schwingung [ 1 − cos(ωt) ]. Aufgetragen ist die relative Änderung der
Feuerrate in willkürlichen Einheiten über der Zeit in Millisekunden. Der Verlauf der
Kurven ist, von der sinusförmigen Amplitudenmodulation abgesehen, vergleichbar
mit Abbildung 3.3: nach Einsetzen des Reintons fällt die relative Feuerrate unter die
Spontanrate, rund 1 ms später erreicht sie wieder positive Werte, steigt auf ein Maximum und sinkt dann auf einen Gleichgewichtswert. Wie für eine Heaviside-Funktion
wird die Wahrnehmung kurz nach Beginn des Signals gestört, das Verhalten des
Modells deckt sich auch hier mit den experimentellen Daten. Zu beachten ist, dass
die Amplitude der Schwingung in allen drei Kurven gleich ist, in der Verschaltung
bleibt die Phaseninformation des Tons also vollständig erhalten. Die Parameter sind
mit Abbildung 3.3 identisch, die Frequenz ω des Reintons betrg̈t 440 Hz.
und Exzitation und Blau schließlich den Fall einer längeren charakteristischen Zeit
der Inhibition.
Nicht überraschend ist, dass alle drei Kurven mit 440 Hz moduliert sind, der Frequenz des verwendeten Tones. Ein wichtiger Punkt ist, dass die Amplitude der
Schwingungen konstant bleibt, die Gesamtaktivität hingegen durch die Inhibition
deutlich verringert wird. Das entscheidende Merkmal des Signals, die Phaseninformation, wird durch den vorgeschlagenen Mechanismus der Unterdrückung also nicht
manipuliert.
Von der sinusförmige Amplitudenmodulation abgesehen wird der qualitative Ver-
30
KAPITEL 3. DAS MODELL
lauf der Änderung der Feuerrate für einen einsetzenden Reinton bereits durch eine
Heaviside-Funktion sehr gut beschrieben. Ganz wie in Abbildung 3.3 führt eine reine
Exzitation zu einer wachsenden Feuerrate, die rund 4 ms nach Beginn des Signals ihr
Maximum erreicht. Wird die Inhibition zugeschaltet, fällt die Feuerrate nach dem
Greifen der Inhibition zunächst scharf ab und steigt dann auf ein Maximum, bevor
sie den Grenzwert für große Zeiten erreicht. Genau wie zuvor ist das Maximum für
eine langsamere Inhibition besser ausgeprägt.
Zwei kleine, aber wesentliche Unterschiede zu Abbildung 3.3 lassen sich jedoch feststellen.
Erstens ist der kurze Anstieg der Aktivität vor Einsetzen der Inhibition nicht mehr
zu erkennen, der Beginn des Signals kann also nicht wahrgenommen werden. Ein derartiges Verhalten ist allerdings nicht realistisch: ein Neuron im auditorischen Nerv
löst Spikes im anteroventralen und im dorsalen Teil des Nucleus Cochlearis gleichzeitig aus, daher kann der erste Spike eines anhaltenden Tones niemals unterdrückt
werden. Es handelt sich um eine Folge der fehlenden Schwelle unseres Neuronmodells in Verbindung mit dem unnatürlich langsamen Einsetzen der Schwingung. Hier
stossen wir offensichtlich an die Grenzen der Modellierung.
Viel wesentlicher ist allerdings der zweite Unterschied: Betrachten wir den Bereich,
in dem die relative Feuerrate negativ wird, so fällt uns auf, dass im Gegensatz zu
vorher die blaue Kurve ihr Minimum schneller erreicht als die rote und beide Kurven
fast gleichzeitig den Nullwert durchlaufen. Die charakteristische Zeit der Inhibition
beeinflusst also nicht mehr die zeitliche Ausdehnung der Unterdrückung, sondern nur
noch ihre Stärke. Der zuvor beobachtete Effekt einer variablen Dauer der negativen
relativen Feuerrate kann mit dem abrupten Einsetzen des Signals, der Unstetigkeit
der Heaviside-Funktion im Nullpunkt, erklärt werden. Mit größeren charakteristischen Zeiten der Inhibition hat die Unstetigkeit auch länger inhibitorischen Einfluss
auf die Feuerrate.
Ein einsetzender Reinton führt also in dem Modell zunächst zu einem zeitlich klar
umrissenen Absinken der Feuerrate bei Beginn des Tones. Dann stellt sich eine von
der Stärke der Inhibition abhängige Gleichgewichtsaktivität ein. Höchst bemerkenswert ist, dass die Amplitude der Schwingung nicht von der Inhibition beeinflusst
wird.
3.2.3
Fazit
Diskutiert wurden die Lösungen für die analytischen Äquivalente zu einem Klick
und einem einsetzenden Reinton. Zusammenfassend kann man sagen, dass sich die
3.3. NUMERIK
31
Ergebnisse in beiden Fällen gut mit den psychophysikalischen Experimenten decken.
Klicks unterdrücken nachfolgende Klicks und bei einem einsetzenden Reinton ist die
Wahrnehmung kurz nach seinem Beginn gestört. Da die für den Ton charakteristischen Schwingungen nicht beeinträchtigt werden, ist seine Wahrnehmung außerhalb
der kurzen Zeit nach dem Einsetzen des Tons nicht gestört.
Interessanten Einfluss auf das Verhalten des Modells hat eine wachsende charakteristische Zeit der Inhibition. Sowohl für Klicks als auch für einen einsetzenden Reinton
nimmt die Stärke der Unterdrückung mit der charakteristischen Zeit der Inhibition zu. Im Fall von Klicks steigt mit wachsender charakteristischer Zeit auch die
Verzögerung der Unterdrückung, für Reintöne hat die charakteristische Zeit der Inhibition hingegen fast keinen Einfluss auf Zeitpunkt und Dauer der Unterdrückung.
Wie nah die Ergebnisse am Verhalten des biologischen Systems sind, ist schwer einzuschätzen. Gerade zum Zeitpunkt des Einsetzens des Signals spielt die, im PoissonModell vernachlässigte, Schwelle eine wichtige Rolle. So ist es vom Poisson-Neuron
zur real existierenden Zelle unter Umständen noch ein großer Schritt. Da die bisherigen Ergebnisse jedoch sehr ermutigend sind, soll die vorgeschlagene Verschaltung
im nächsten Abschnitt unter Zuhilfenahme eines anderen, näher an der Realität liegenden Neuronmodells untersucht werden. Für das neue Modell ist eine analytische
Lösung nicht mehr möglich, weshalb die Berechnungen numerisch mittels Computersimulationen durchgeführt werden.
3.3
Numerik
Wie wir im vorherigen Abschnitt gesehen haben, stehen die Ergebnisse der analytischen Betrachtungen in gutem Einklang mit den psychophysikalischen Experimenten. Allerdings sind auch Schwächen des Poisson-Neurons zu Tage getreten.
Numerische Berechnungen können uns im Vergleich zur analytischen Lösung im
Wesentlichen zwei Vorteile bieten.
Ein Vorteil ist, dass die Aussagen der Rechnungen nicht nur Wahrscheinlichkeiten und Raten, sondern real existierende Spikes und konkrete zeitliche Abfolgen von
Spikes betreffen. Das ermöglicht es, den Einfluss der genauen zeitlichen Abstimmung
auf die Eigenschaften der neuronalen Verschaltung im Detail nachzuvollziehen. Ein
weiterer Vorteil ist die realistischere Darstellung der Neurone und die daraus resultierende bessere Vergleichbarkeit mit der Wirklichkeit. In unseren Simulationen
werden alle Neurone mit einem angepassten Spike-Response-Modell (SRM) [11] beschrieben.
Charakteristisch für das SRM ist, dass Spikes mit einer Deltafunktion beschrieben
32
KAPITEL 3. DAS MODELL
werden und dass absolute und relative Refraktärzeiten explizit berücksichtigt werden. Für das Zellpotential vi (t) einer mit den Zellen j verbundenen Zelle i gilt im
SRM:
vi (t) =
X
η(t − tfi ) +
f
X
Jij (t − tfj − ∆axon
).
ij
(3.16)
j,f
Die Summe über f ist eine Summe über die Feuerzeiten tf der beteiligten Neurone,
also der Neurone i und seiner ”Nachbarn” j. Die Funktion η(t) beschreibt das Refraktärverhalten der Zellen: in der absoluten Refraktärzeit (t < τabs ) mit dem Wert
–∞, in der relativen Refraktärzeit (t ≥ τabs ) mit einem endlichen negativen Term. Jij
steht für die Kopplungsstärke von Neuron j zu Neuron i, die Alphafunktion (t) wie
im analytischen Teil für die postsynaptische Antwort auf einen Spike. Die axonale
Verzögerung ∆axon
von Neuron j zu Neuron i kommt durch die in realen Systemen
ij
auftretende synaptische Verzögerung ∆syn und die Laufzeit der Spikes entlang der
Axone von Neuron j zu Neuron i zustande. Überschreitet das Potential vi (t) eine
bestimmte Schwelle ϑ, wird in Neuron i ein Spike ausgelöst.
In den Simulationen werden, wie bereits in Abschnitt 3.2, exzitatorische (EPSP)
und inhibitorische (IPSP) postsynaptische Potentiale als analog angenommen. Sie
werden einheitlich als Alphafunktion beschrieben, mit der Zeitkonstante τexzit. für
EPSP und τinhib. für IPSP. Die Membranzeitkonstante τm bestimmt den exponentiellen Rückfall des Zellpotentials auf das Ruhepotential, ist also vor allem in der
relativen Refraktärzeit von Bedeutung.
Alle Berechnungen werden mit zwei verschiedenen Parametersätzen durchgeführt.
Einmal wurden Amplitude, Form, Dauer und zeitliche Koordination der Potentiale
den einzelnen Ergebnissen von Wickesberg und Oertel angepasst. Dieser Parametersatz ist durch eine Membranrelaxationszeit von τm = 0.3 ms charakterisiert. Da das
eine vergleichsweise kurze Membranrelaxationszeit ist, wurde sie für einen weiteren
Satz von Parametern auf τm = 1 ms gesetzt, um die Robustheit des Mechanismus zu
untersuchen. In der folgenden Tabelle sind die Parameter für die beiden Membranrelaxationszeiten zusammengefasst:
τm
τe
τi
τabs
∆syn
Jexzit.
ϑ
0.3 ms
0.5 ms
4 ms
0.25 ms
0.2 ms
1.2
0.3
1 ms
0.5 ms
4 ms
0.25 ms
0.2 ms
1.2
0.8
3.3. NUMERIK
33
Beide Parametersätze unterscheiden sich also zunächst nur in den Membranrelaxationszeiten τm und in der Schwelle ϑ. Der Schwellwert ist normiert, d.h. eine Schwelle
von 0.3 bedeutet, dass bei 30 % des maximalen Wertes, den ein EPSP nach einem
Spike erreicht, ein Spike ausgelöst wird.
Freie Parameter sind die Stärke der Inhibition, Jinhib. , und die Streuung der Inhibition in benachbarte Frequenzen, ESB (Echo Suppression Branching). Keine
Streuung findet bei ESB = 1 statt, für ESB = n werden zusätzlich die benachbarten
n−1 Nervenfasern inhibiert. Die Inhibition klingt exponentiell mit dem Abstand ab.
Die Abklingrate wird so gewählt, dass die Stärke der Inhibition im weitestentfernten
noch inhibierten Neuron weniger als 2 % des Wertes im direkt innervierten Neurons
beträgt.
Wenn nicht anders erwähnt, liegt den gezeigten Ergebnissen bei minimaler Streuung
der Inhibition in benachbarte Frequenzen (ESB = 5) eine mittlere Stärke der Inhibition zu Grunde (Jinhib. = −1.25 für τm = 0.3 ms und Jinhib. = −3.0 für τm = 1 ms).
Zur Modellierung der Peripherie wird das etablierte C++ Paket LUTEar der Universität von Essex verwendet. LUTEar liefert zu .wav-Dateien die zugehörigen Spikezeiten in den einzelnen Fasern des auditorischen Nervs. Diese Spikezeiten bilden
den Input des untersuchten Modells. Als Input werden die Spikezeiten von Klicks,
Klickpaaren, Reintönen und schließlich Rauschen verwendet.
3.3.1
Verhalten für Klicks und Klickpaare
In Anlehnung an die psychophysikalischen Experimente von Harris wird zunächst
das Verhalten des Modells für Klicks und Klickpaare ergründet. Wie in den Versuchen von Harris haben die Klicks eine Länge von 0.3 ms. In Abbildung 3.6 sehen
wir die Ergebnisse eines Testlaufs mit einem einzelnen Klick als Signal: links die
Aktivität der Neurone im auditorischen Nerv, in der Mitte die Ausgabe des Modells
für τm = 0.3 ms und rechts für τm = 1 ms.
In allen drei Fällen ist die Zahl der Spikes allgemein groß, das Rauschen im auditorischen Nerv also sehr ausgeprägt. Trotzdem ist das Signal, also der Klick, immer
deutlich zu erkennen. Ebenfalls zu erkennen ist allerdings eine Art von Schwänzen,
die die Klicks nach sich ziehen, eine Aktivität, die vor allem in den Kanälen tiefer
Frequenzen ausgeprägt ist. Es handelt sich hierbei um Nachschwingungen der Basilarmembran. Zu bemerken ist auch, dass die Spikes in tiefen Frequenzen mit leichter
Verzögerung ausgelöst werden. Das lässt sich auf die Geometrie der Basilarmembran
zurückführen: die bekannte Wanderwelle breitet sich entlang der Membran von den
Bereichen mit hoher Eigenfrequenz zu denen mit tiefer Eigenfrequenz hin aus. Dabei
34
KAPITEL 3. DAS MODELL
Abbildung 3.6: Spikeaktivität für einzelne Klicks. Aufgetragen sind die Frequenzkanäle über der Zeit; ein Punkt markiert einen Spike im jeweiligen Kanal. Zum
Vergleich steht ganz rechts die charakteristische Frequenz der Kanäle. Links sieht
man die Aktivität im auditorischen Nerv, in der Mitte im Nucleus Cochlearis mit
τm = 0.3 ms und recht im Nucleus Cochlearis mit τm = 1 ms zum Vergleich. In allen drei Fällen ist der Klick, die Stimulation aller Frequenzkanäle bei t = 20 ms,
klar zu erkennen. Im linken Bild zieht der Klick deutlich ein schwanzartiges Muster in der Aktivitätsverteilung nach sich. Die rechten beiden Bilder zeigen, dass
diese Schwänze im Modell für verschiedene Parameter deutlich unterdrückt werden.
Außerdem resultieren die Klicks hier in einem schmaleren Signal; nach den Klicks
ist ein deutliches Sinken der Spontanaktivität zu beobachten. Nachfolgende Reize
werden also erwartungsgemäß unterdrückt.
nimmt die Geschwindigkeit der Wanderwelle laufend ab. Als Folge werden in Abbildung 3.6 die Spikes in Bereichen mit tiefer Eigenfrequenz sichtbar später ausgelöst
als in Bereichen mit hoher Eigenfrequenz.
Vergleicht man die drei Graphen untereinander, fällt auf, dass die Dichte der Aktivität im auditorischen Nerv allgemein höher und die Schwänze nach den Klicks
ausgeprägter sind als im Nucleus Cochlearis. Insbesondere fällt auf, dass in dem
Zeitraum nach den Klicks besonders wenige Spikes zu beobachten sind. Erwartungsgemäß scheinen also frühere Spikes später kommende Reize zu unterdrücken. Bemerkenswert ist, dass es zwischen den Aktivitäten im Nucleus Cochlearis für die beiden verschiedenen Parametersätze keine mit bloßem Auge erkennbaren Unterschiede
3.3. NUMERIK
35
gibt. Diese Ununterscheidbarkeit gilt nicht nur für einen einzelnen Klick, sondern
uneingeschränkt auch für Klickpaare und, mit einer später diskutierten Ausnahme,
für Reintöne. Daher wird im Folgenden nur noch der Parametersatz mit τm = 0.3 ms
diskutiert; die Ergebnisse für τm = 1 ms sind identisch.
Für den Vergleich mit den psychophysikalischen Experimenten interessiert uns natürlich weniger die Reaktion des Systems auf einen einzelnen Klick als vielmehr das
Verhalten für Klickpaare mit verschiedenen Abständen der Klicks. Abbildungen 3.7
und 3.8 zeigen die entsprechenden Ergebnisse. Von links nach rechts sehen wir in
beiden Abbildungen zunächst einen einzelnen Klick, dann 8 Klickpaare mit Klickabständen von je 0.5, 1, 2, 3, 4, 6, 8 und 10 ms.
Abbildung 3.7: Spikeaktivität für eine Klickserie im auditorischen Nerv. Dargestellt ist die Aktivität für einen einzelnen Klick gefolgt von 8 Klickpaaren, die je
einen Klickabstand von 0.5, 1, 2, 3, 4, 6, 8 und 10 ms haben. Gut zu erkennen sind
die in immer größeren Abständen aufeinander folgenden einzelnen Klicks sowie die
Schwänze, die die Klicks nach sich ziehen. Die Berechnung erfolgte mit LUTEar.
Abbildung 3.7 zeigt die mit größerem Klickabstand steigende zeitliche Ausdehnung
der Aktivität im auditorischen Nerv. Von einem einzelnen Klick bis zu Klickpaaren
mit 0.5 und 1 ms Klickabstand werden die Bänder breiter, bis wir ab einem Abstand von 2 ms und mehr innerhalb der Klickpaare die einzelnen Reize unterscheiden
können. Deutlich ist auch hier wieder das Nachschwingen der Basilarmembran zu
erkennen.
36
KAPITEL 3. DAS MODELL
Abbildung 3.8: Spikeaktivität für eine Klickserie analog zu Abbildung 3.7 im
Nucleus Cochlearis. Im Vergleich zu der Aktivität im auditorischen Nerv sind die
Schwänze fast nicht mehr zu erkennen und die ersten drei Klickpaare nach dem
einzelnen Klick, die Paare mit dem Klickabstand von 0.5, 1 und 2 ms sind nicht zu
unterscheiden. Insbesondere bei dem Klickpaar mit einem Klickabstand von 2 ms
(bei t = 15 ms) ist der zweite Klick, in deutlichem Gegensatz zu Abbildung 3.7, nicht
auszumachen. Für größere Klickabstände kann man die einzelnen Klicks wieder deutlich erkennen. Das Verhalten des Modells deckt sich genau mit den Ergebnissen von
Harris, nach denen der zweite Klick bei einem Interklickintervall von 2 ms nicht
wahrgenommen wird. τm = 0.3 ms, ESB = 5 und Jinhib. = −1.25.
In Abbildung 3.8 sieht man, dass, wie bereits im Testlauf festgestellt, die Gesamtaktivität im Nucleus Cochlearis geringer ist als noch im auditorischen Nerv. Auch die
Nachschwingungen der Basilarmembran sind, analog zum Testlauf, weitgehend verschwunden.
Betrachten wir die zeitliche Ausdehnung der Aktivität, stellen wir jedoch interessante Abweichungen von Abbildung 3.7 fest: Zwar ist die Aktivität für den einzelnen
Klick ebenfalls schwächer als für die Klickpaare, innerhalb der ersten drei Klickpaare
(Abstand 0.5, 1 und 2 ms) jedoch verändert sich die Breite der Bänder nicht. Erst
bei einem Klickabstand von 3 ms nimmt die Breite deutlich zu und wir können einen
zweiten Klick erahnen, eine Ahnung, die bei den darauffolgenden Klickpaaren zur
Gewissheit wird.
3.3. NUMERIK
37
Das Verhalten des Modells deckt sich also genau mit den Ergebnissen von Harris.
Übersichtlicher lassen sich die Ergebnisse darstellen, indem man die Spikes aller
Kanäle in einem Zeitintervall dt aufsummiert und gegen die Zeit anträgt wie in
Abbildung 3.9. Gut erkennt man die abgesenkte Gesamtaktivität und den starken
Rückgang der Aktivität direkt nach einem Klick. Bei den besonders interessanten
Klickabständen von 0.5, 1, 2 und 3 ms kann man hingegen nur wenig erkennen. Das
liegt an der Wahl des Zeitintervalls dt. Um den Effekt des vergleichsweise ausgeprägten Rauschens auszumitteln, muss für eine klare Darstellung das Zeitintervall
dt mindestens 1.9 ms betragen. Damit wird auch die Feinstruktur nivelliert.
Abbildung 3.9: Gesamtaktivität für eine Klickserie im auditorischen Nerv und im
Nucleus Cochlearis. Aufgetragen ist die Summe der Spikes in allen Kanälen in einem
Zeitinterval dt = 1.9 ms über der Zeit. Für kurze Klickabstände sind die einzelnen
Klicks nicht zu identifizieren, gut zu erkennen ist jedoch die allgemein verringerte
Aktivität sowie der besonders starke Rückgang der Aktivität unmittelbar nach einem
Reiz. τm = 0.3 ms, ESB = 5 und Jinhib. = −1.25.
Der Vorteil der letzten Darstellungsform ist die Übersichtlichkeit. Das macht sie
geeignet, um den Einfluss der beiden freien Parameter, der Stärke der Inhibition
und der Streuung der Inhibition in benachbarte Frequenzen, auf das Verhalten des
Modells zu verdeutlichen.
In Abbildung 3.10 ist der Einfluss der Stärke der Inhibition auf das Verhalten des
38
KAPITEL 3. DAS MODELL
Modells erkennbar. Neben der Aktivität im auditorischen Nerv ist die Aktivität im
Nucleus Cochlearis dargestellt, einmal mit schwächerer (Jinhib. = −0.75) und einmal mit stärkerer (Jinhib. = −1.75) Inhibition. Mit zunehmender Inhibition sinkt die
Aktivität insgesamt und der von den Klicks ausgelöste Effekt der Unterdrückung
nachfolgender Spikes wird deutlicher.
Abbildung 3.10: Einfluss der Stärke der Inhibition auf die Gesamtaktivität für
eine Klickserie. Aufgetragen ist die Aktivität im auditorischen Nerv und im Nucleus
Cochlearis für schwächere (Jinhib. = −0.75) und für stärkere (Jinhib. = −1.75) Inhibition. Je stärker die Inhibition, desto deutlicher wird das Absinken der Gesamtaktivität und der Rückgang der Spikezahl unmittelbar nach einem Reiz. τm = 0.3 ms
und ESB = 5.
Der zweite freie Parameter ist die Streuung der Inhibition in benachbarte Frequenzen. Eine große Streuung heißt, dass die Aktivität in einer Faser des auditorischen
Nervs nicht nur die nachfolgenden Reize in der gleichen, sondern auch in einer Zahl
benachbarter Fasern unterdrückt. Je größer also die Streuung der Inhibition, desto geringer ist die Frequenzspezifizität der Echounterdrückung. Von einer Echounterdrückung erwarten wir jedoch, wie zu Anfang dieser Arbeit dargelegt, dass sie
frequenzspezifisch ist. Vor diesem Hintergrund stellt sich die Frage, inwiefern die
Streuung der Inhibition hier von Interesse ist.
Eine große Streuung entspricht einem großen afferenten Feld, also einem großen Bereich im dorsalen Teil des Nucleus Cochlearis, der ein Neuron des anteroventralen
3.3. NUMERIK
39
Nucleus Cochlearis inhibiert. In den Experimenten von Wickesberg und Oertel sind
die beobachteten afferenten Felder von nicht vernachlässigbarer Größe. Aus diesem
Grund ist eine Untersuchung des Einflusses inhibitorischer Streuung auf das Verhalten des Modells naheliegend.
Abbildung 3.11: Einfluss der Streuung der Inhibition auf die Gesamtaktivität für
eine Klickserie. Gezeigt ist die Aktivität im auditorischen Nerv und im Nucleus Cochlearis für Inhibition großer Streuung. Noch deutlicher als in Abbildung 3.9 und 3.10
sinkt hier die Zahl der Spikes unmittelbar nach einem Klick oder Klickpaar. Im
Gegensatz zu den vorhergehenden Abbildungen bleibt die spontane Aktivität, also
die Spikezahl vor oder lange nach den Klicks, praktisch unverändert. τm = 0.3 ms,
ESB = 41 und Jinhib. = −0.12.
Der Einfluss der Streuung der Inhibition auf das Verhalten des Modells ist aus Abbildung 3.11 ersichtlich. In Abwesenheit von Klicks wird die Gesamtaktivität kaum
verringert, wohingegen die Unterdrückung von Spikes direkt nach den Klicks genauso stark ist wie in den oben diskutierten Fällen (vgl. Abb. 3.9). Dieses Verhalten
ist leicht zu verstehen: die Inhibition ist hier breiter (ESB = 41) und schwächer
(Jinhib. = −0.12) als zuvor (ESB = 5, Jinhib. = −1.25), weshalb ein Spike in einer Fiber des auditorischen Nervs nicht reicht, um nachkommende Spikes zu unterdrücken;
erst wenn viele Kanäle gleichzeitig aktiviert werden, wie bei einem Klick, wird die
Inhibition in einer Faser ausreichend stark, um einen Spike zu unterdrücken.
Insgesamt entspricht das Verhalten für Klicks unseren Vorstellungen: gemäß den
40
KAPITEL 3. DAS MODELL
Ergebnissen von Harris werden Klicks in 2 ms Abstand von einem anderen Klick unterdrückt; Variationen in Stärke und Streuung der Unterdrückung beeinflussen das
Verhalten des Modells nachvollziehbar; für beide Membranzeitkonstanten werden
nicht unterscheidbare Ergebnisse erzielt. Auch mit den Ergebnissen der analytischen
Rechnungen stehen die numerischen Simulationen im Einklang. Im Fall von Klicks
sind die analytischen Vereinfachungen anscheinend nicht kritisch. Spannend ist die
Frage, inwieweit das für einen einsetzenden Reinton ebenfalls gilt: Hier stießen wir
im letzten Kapitel an die Grenzen unserer Modellierung.
Daher soll im nächsten Abschnitt untersucht werden, wie das Modell mit SRMNeuronen auf einen anhaltenden Reinton reagiert.
3.3.2
Verhalten für Reintöne
Im Vergleich zu den Klicks des letzen Abschnitts erwarten wir für Reintöne deutlich
komplexere Muster der Neuronenaktivität. Das wird von Abbildung 3.12 bestätigt.
Dargestellt ist die Aktivität für einen einsetzenden Reinton von 440 Hz im auditorischen Nerv. Deutlich zu sehen ist das Anschalten bei 0.44 s und, nach einer kurzen Einschwingphase, das Phaselocking. In Abbildung 3.13, der Aktivität für den
gleichen Ton im Nucleus Cochlearis, ist insbesondere das Phaselocking wesentlich
schwerer zu erkennen. Bedenkt man, dass die Abbildungen einem Ton von 100 dB(A)
entsprechen, scheint fraglich, ob schwächere Signale überhaupt noch eine verwertbare Aktivität im Nucleus Cochlearis hervorrufen.
In der in Abbildung 3.12 und 3.13 gewählten Form der Darstellung ist sehr mühsam,
Details zu erkennen. Damit ist sie für eine genauere Analyse ungeeignet; es bedarf
einer Aufbereitung der Rohdaten. Da anzunehmen ist, dass das Phaselocking entscheidend ist für die Erkennung und Verarbeitung von Tönen, summieren wir über
alle Spikes, die einen identischen zeitlichen Abstand voneinander haben. Wir ordnen
also die Spikes nach Interspikeintervallen (s. Abb. 3.14).
Betrachten wir zunächst die Aktivität im auditorischen Nerv, also die grüne Kurve. Das Phaselocking tritt hier klar zu Tage: bis zu dem verhältnismäßig großen
Spikeabstand von 40 ms liegt eine Oszillation der Aktivität mit 440 Hz vor.
Das Rauschen liefert die abklingende Hintergrundaktivität.
Die rote Kurve beschreibt die Aktivität im Nucleus Cochlearis. Für Spikeabstände
von ca. 8 ms und weniger ist die Spikezahl im Vergleich zur grünen Kurve drastisch
reduziert (bei 2 ms um den Faktor 25!). In diesem Bereich ist das Rauschen praktisch
vollständig unterdrückt, das Phaselocking nur rudimentär zu erkennen. Spikes mit
einem Interspikeintervall unterhalb einer bestimmten Grenze, hier ca. 8 ms, werden
3.3. NUMERIK
41
Abbildung 3.12: Spikeaktivität für einen Reinton von 440 Hz von 100 dB(A) im auditorischen Nerv. Leicht zu erkennen ist der Beginn des Tones bei t = 0.44 s. Ähnlich
einem Klick werden durch das abrupte Einschalten die bekannten Schwänze erzeugt.
Nach einer Einschwingphase stellt sich in den Frequenzen um 440 Hz Phaselocking
ein. Die Berechnung der Spikezeiten erfolgte mit LUTEar.
also unterdrückt.
Interessant sind aber nicht nur die Unterschiede zwischen den Kurven sondern auch
ihre Gemeinsamkeit: Ab Spikeabständen von rund 17 ms gibt es zwischen den Kurven fast keinen Unterschied mehr. Da Phaselocking bis zu einem Spikeabstand von
40 ms vorliegt, wird ein großer Teil der Information, die Information der niederen
harmonischen Schwingungen des Reintons, von dem Modell nicht verändert.
Hier liegt also eine Diskrepanz zwischen numerischer und analytischer Lösung, in
welcher die Phaseninformation nicht verändert wird, vor.
Wird die Stärke der Inhibition verändert, verschiebt sich die Grenze der Interspikeintervalle, unterhalb derer Spikes unterdrückt werden. Schwächt man die Inhibition
ab, werden nur noch Spikes mit geringerem Abstand unterdrückt, verstärkt man sie,
verschwinden auch Spikes mit größeren Interspikeintervallen.
In Abbildung 3.15 sehen wir, dass es an dieser Stelle - zum ersten und einzigen Mal einen signifikanten Unterschied im Verhalten des Modells für die beiden Parametersätze mit τm = 0.3 ms und τm = 1 ms gibt. Im Fall schwacher Inhibition verschiebt
42
KAPITEL 3. DAS MODELL
Abbildung 3.13: Spikeaktivität für einen Reinton von 440 Hz von 100 dB(A) im
Nucleus Cochlearis. Analog zu Abbildung 3.12 kann man Beginn des Signals, Einschwingphase und Phaselocking erkennen. Im Vergleich zu Abbildung 3.12 sind die
Merkmale deutlich schwieriger auszumachen. Die Form der Darstellung ist nicht
optimal, in Abbildung 3.14 sind die gleichen Daten wesentlich übersichtlicher dargestellt. τm = 0.3 ms, ESB = 5 und Jinhib. = −1.25.
sich für den Parametersatz mit τm = 1 ms die Grenze wie erwartet in Richtung Ursprung; für τm = 0.3 ms taucht hier bei einem Spikeabstand von etwa 1 ms ein Peak
auf. Dieses Zwischenhoch in der Aktivität lässt sich durch die kurze Membranrelaxationszeit erklären und passt auch zu der von Harris beschriebenen Wahrnehmung
der Klicks in einem Abstand von 0.5 ms und 1 ms. Die Bedeutung des Peaks bleibt
jedoch unklar, solange nicht endgültig festgestellt wird, welche Relaxationzeit im
Nucleus Cochlearis relevant ist.
Wenn eine Streuung der Inhibition in benachbarte Frequenzen stattfindet, ändert
sich das Verhalten des Modells deutlich (s. Abb. 3.16).
Im vorigen Abschnitt hatten wir festgestellt, dass die mittlere Gesamtaktivität bei
großer Streuung der Inhibition in Abwesenheit von Klicks kaum verändert wird. In
Abbildung 3.16 sehen wir, dass dies nicht nur in Abwesenheit von Klicks sondern
auch in Anwesenheit eines Reintons gilt: zwar ist die Hintergrundaktivität und auch
die vom Signal verursachte Aktivität im Vergleich zum auditorischen Nerv abge-
3.3. NUMERIK
43
Abbildung 3.14: Spikeaktivität für einen Reinton von 440 Hz von 100 dB(A) im
auditorischen Nerv und im Nucleus Cochlearis. Aufgetragen ist die Absolutzahl der
Spikes über dem zeitlichen Abstand von ihrem Vorspike. Klar tritt sowohl im auditorischen Nerv als auch im Nucleus Cochlearis das Phaselocking zu Tage. Das
Rauschen liefert besonders im auditorischen Nerv eine ausgeprägte Hintergrundaktivität. Im Nucleus Cochlearis werden Spikes mit kurzen Interspikeintervallen stark
unterdrückt. τm = 0.3 ms, ESB = 5 und Jinhib. = −1.25.
senkt, ein qualitativer Unterschied der beiden Kurven ist jedoch nicht zu erkennen.
Ein Reinton wird von dem Mechanismus praktisch nicht verändert, wenn die Inhibition im Nucleus Cochlearis breit über die Frequenzen gestreut ist. Der Unterschied
zwischen numerischer und analytischer Lösung verschwindet also im Falle breiter
Streuung der Inhibition.
Insgesamt ist das Verhalten des Modells für anhaltende Reintöne in den numerischen Simulationen zufriedenstellend: Zwar ist ein deutlicher Unterschied zur analytischen Lösung vorhanden, zumindest im Fall einer breit gestreuten Inhibition kann
allerdings von übereinstimmenden Ergebnissen der beiden Lösungswege gesprochen
werden. Festzuhalten ist auch, dass in jedem Fall, also auch bei wenig ausgeprägter
Streuung der Inhibition, das heisst, einem von der Analytik verschiedenen Verhalten, ein großer Teil der Phaseninformation erhalten bleibt. Genug, um die Frequenz
des Signals eindeutig rekonstruieren zu können.
44
KAPITEL 3. DAS MODELL
Abbildung 3.15: Spikeaktivität für einen Reinton im Nucleus Cochlearis für den
Fall schwacher Inhibition. Im Vergleich zu Abbildung 3.14 ist die Aktivität im auditorischen Nerv unverändert, die Unterdrückung von Spikes mit geringen Interspikeintervallen im Nucleus Cochlearis jedoch weniger ausgeprägt. Für den Parametersatz
mit einer Membranrelaxationszeit von 0.3 ms existiert ein deutlicher Peak der Aktivität bei ca. 0.5 ms. Der Peak passt zu den psychophysikalischen Experimenten von
Harris, nach denen ein Klick mit 0.5 ms Abstand zum vorhergehenden Klick nicht
unterdrückt wird. τm = 0.3 ms und Jinhib. = −0.75 bzw. τm = 1 ms und Jinhib. = −2.0.
Die in diesem Abschnitt aufgeführten Abbildungen zeigen das Verhalten des Modells für einen Reinton von 440 Hz. Für einen Reinton von 1000 Hz wurden analoge
Berechnungen mit vergleichbaren Resultaten durchgeführt.
Die Lautstärke wurde für alle gezeigten Ergebnisse in LUTEar auf 100 dB(A) eingestellt. Für einen Reinton ist das sehr viel. Das Modell liefert für 70 und 50 dB(A)
jedoch keine anderen Effekte, sie sind lediglich schwerer zu erkennen. Speziell bei
50 dB(A) sind sie für ein ungeschultes Auge nicht zu sehen. Das bedeutet jedoch
nicht, dass sie im auditorischen System nicht wahrgenommen werden. Vielmehr muss
das auditorische System in Bezug auf seine nativen Daten zu mindestens der gleichen Identifikationsleistung in der Lage sein wie ein geschultes Auge in Bezug auf
die vorliegenden Graphen.
3.3. NUMERIK
45
Abbildung 3.16: Spikeaktivität für einen Reinton im auditorischen Nerv und im
Nucleus Cochlearis für den Fall starker Streuung der Inhibition in benachbarte Frequenzen. Im Vergleich zu den Abbildungen 3.14 und 3.15 fällt auf, dass im Nucleus
Cochlearis die Spikes mit geringen Interspikeintervallen kaum unterdrückt werden.
Die Phaseninformation des Tones bleibt vollständig erhalten. τm = 0.3 ms, ESB = 41
und Jinhib. = −0.12.
3.3.3
Verhalten für Rauschen
Im letzten Abschnitt wurde unter anderem festgestellt, dass der vorgeschlagene Mechanismus das Rauschen bei kurzen Interspikeintervallen stark schwächt. Dem soll
hier mit einem Signal, das ausschliesslich aus weißem Rauschen besteht, nachgegangen werden. Um für diesen Fall aussagekräftige Graphen zu erhalten, ist eine
differenziertere Art der Auftragung als für Reintöne notwendig. Wieder tragen wir
die Spikezahl über den Interspikeintervallen auf, diesmal jedoch für jeden Kanal getrennt. Abbildung 3.17 ist ein derartiger Graph für einen Reinton von 440 Hz im
auditorischen Nerv. Die Analogie zu Abbildung 3.14 ist nicht zu übersehen.
Bei einem Blick auf Abbildung 3.18, dem gleichen Graphen für lautes Rauschen, wird
klar, weshalb die Auftrennung nach Kanälen nötig ist. Das Rauschen regt die Basilarmembran zu Eigenschwingungen an, die jedoch in der Summe unsichtbar sind, da die
Eigenfrequenzen für jeden Kanal unterschiedlich sind. Die Aktivitätsverteilung nach
dem Durchlaufen des Modells ist in Abbildung 3.19 zu sehen. Die Unterdrückung ist
46
KAPITEL 3. DAS MODELL
Abbildung 3.17: Aktivitätsverteilung für einen Reinton von 440 Hz im auditorischen Nerv. Aufgetragen sind die Kanäle über den Interspikeintervallen, dunkle
Punkte stehen für viele, helle Punkte für wenige Spikes. Die Analogie zu den vorherigen Abbildungen ist unübersehbar. Die Kanäle um eine Frequenz von 440 Hz,
(Kanal 90) feuern kohärent, die Hintergrundaktivität stammt aus den restlichen
Kanälen. Die Berechnung erfolgte mit LUTEar.
sehr stark, allerdings werden nicht nur die Eigenschwingungen unterdrückt, sondern
allgemein alle Spikes mit geringem Interspikeintervall. Der Effekt ist also sehr unspezifisch. Im Falle einer breiten Streuung der Inhibition werden die Eigenschwingungen
ebenfalls reduziert, jedoch wesentlich subtiler (s. Abb. 3.20).
Dieser Effekt verschwindet in Simulationen mit leisem Rauschen, da die Basilarmembran vom Rauschen dann nicht mehr in Eigenschwingungen versetzt wird. Trotzdem
ist der Effekt von Interesse, weil er verdeutlicht, dass Eigenschwingungen der Basilarmembran von dem Mechanismus wirkungsvoll unterdrückt werden und noch
einmal klar wird, dass die Streuung der Inhibition einen wesentlichen Einfluss auf
das Verhalten des Modells ausübt.
3.3. NUMERIK
47
Abbildung 3.18: Aktivitätsverteilung für Rauschen von 100 dB(A) im auditorischen Nerv. In den einzelnen Kanälen (gut sichtbar im unteren Bereich, Kanal 0 200) feuern die Neurone kohärent mit der charakteristischen Frequenz des Neuronkanals. Es treten die von Klicks und Reinton bekannten Schwänze auf, die Basilarmembran wird durch das Rauschen in Eigenschwingungen versetzt. Die Berechnung
erfolgte mit LUTEar.
3.3.4
Fazit
In den numerischen Simulationen wurde das Verhalten des Modells für Klickpaare,
Reintöne und Rauschen untersucht.
Am klarsten sind die Ergebnisse für die Klickpaare, nicht zuletzt, weil die Daten
sehr einfach zu interpretieren sind: für beide Membranrelaxationszeiten als auch für
unterschiedlich starke Streuung der Inhibition deckt sich das Verhalten des Modells
mit den psychophysikalischen Experimenten. Der Mechanismus ist folglich robust,
über die Breite der vorliegenden Streuung im realen System läßt sich jedoch keine
Aussage treffen. Da wir von einer frequenzspezifischen Echounterdrückung ausgehen, favorisieren wir schwache oder keine Streuung der Inhibition in benachbarte
Frequenzen.
Für Reintöne stellen wir für geringe Streuung qualitative Unterschiede zwischen der
Aktivität im auditorischen Nerv und im Nucleus Cochlearis fest. Hier unterscheiden
sich numerische und analytische Lösung. Dieser Unterschied verschwindet bei einer
großen Streuung der Inhibition: hier wird das Signal im Nucleus Cochlearis kaum
48
KAPITEL 3. DAS MODELL
Abbildung 3.19: Aktivitätsverteilung für Rauschen von 100 dB(A) im Nucleus
Cochlearis für den Fall geringer Streuung der Inhibition. Die analoge Abbildung für
einen Reinton ist Abbildung 3.14. Spikes mit kurzen Interspikeintervallen werden
unterdrückt. Als Folge sind auch die Eigenschwingungen der Basilarmembran nicht
mehr sichtbar. τm = 0.3 ms, ESB = 5 und Jinhib. = −1.25.
verändert.
Bei unnatürlich starkem Rauschen wird die Basilarmembran zu Eigenschwingungen angeregt. Diese werden sowohl im Fall schmaler als auch breiter Streuung unterdrückt, die effizientere und dadurch elegantere Unterdrückung findet jedoch bei
breiter Streuung der Inhibition statt.
Insgesamt sollten wir im jetzigen Stadium der Erkenntnisse unsere Gedanken weniger auf Echounterdrückung und ihre biologische Realisation fokussieren, als vielmehr
versuchen, analytische und numerische Lösung zusammenzuführen und damit den
Kern des Modells, seine Aufgabe im Gehör und auch mögliche Anwendungen, zu
erkennen.
3.3. NUMERIK
Abbildung 3.20: Aktivitätsverteilung für Rauschen von 100 dB(A) im Nucleus
Cochlearis für den Fall breiter Streuung der Inhibition. Die Eigenschwingungen der
Basilarmembran werden unterdrückt, allerdings weniger massiv und mit einer geringeren Auswirkung auf die Aktivität insgesamt als in Abbildung 3.19. Die Gesamtaktivität ist jedoch geringer als in Abbildung 3.18. τm = 0.3 ms, ESB = 41 und
Jinhib. = −0.12.
49
50
KAPITEL 3. DAS MODELL
Kapitel 4
Interpretation und Anwendung
Interpretation der Ergebnisse und Aufgabe der Verschaltung
Die bisherigen Ausführungen hatten zum Ziel, Existenz, Ort und Eigenschaften der
monauralen Echounterdrückung zu ergründen. Im letzten Kapitel haben wir schließlich gesehen, dass das vorgeschlagene Verschaltung für beide verwendeten, vollkommen verschiedenen Neuronmodelle die psychophysikalischen Experimente sehr gut
bis gut widerspiegelt. In beiden Fällen ist der Mechanismus robust bezüglich Variationen der Parameter, sodass wir in Verbindung mit den von Wickesberg und
Oertel vorgestellten biologischen Hinweisen davon ausgehen können, dass eine derartige Unterdrückung im Nucleus Cochlearis real existiert.
Aus unserer Arbeit geht also die Existenz der Verschaltung hervor, unklar bleibt
jedoch ihre Aufgabe. Handelt es sich überhaupt um eine Echounterdrückung? Oder
vielleicht um eine Lautstärkeanpassung? Um eine Rauschunterdrückung, einen Mechanismus zur Unterdrückung der Eigenschwingungen der Basilarmembran?
Eigenschwingungen der Basilarmembran werden, wie in Abschnitt 3.3.1 und 3.3.3
gezeigt, in dem Modell tatsächlich unterdrückt. Erst wurden sie durch einen Klick,
dann durch lautes Rauschen erzeugt, in beiden Fällen durch die vorgeschlagene
Verschaltung aber drastisch reduziert. Die zur Anregung der Eigenschwingungen
durch Rauschen notwendige Lautstärke zeigt jedoch, dass Rauschunterdrückung sicher nicht der originäre Zweck der Verschaltung sein kann.
Denkbar wäre auch eine Regelung der Lautstärke. In den analytischen Rechnungen
und auch in den numerischen Simulationen mit breiter Streuung der Inhibition haben
wir gesehen, dass die durch einen einsetzenden Reinton hervorgerufene Aktivität
durch den Mechanismus insgesamt reduziert wird, die Information der Schwingung,
51
52
KAPITEL 4. INTERPRETATION UND ANWENDUNG
also das Charakteristikum des Tons, hingegen nicht beeinflusst wird. Reguliert wird
also einzig die Lautstärke des Signals. Eine Lautstärkeregulierung möglichst früh
im auditorischen System, also zum Beispiel im Nucleus Cochlearis, macht Sinn, da
das Gehör mit Sicherheit auf die Wahrnehmung und Verarbeitung leiser Signale
optimiert ist. Außerdem ist bekannt, dass die Aktivität im Gehirn im Allgemeinen
eher gering ist ( sparse coding“).
”
Eine aktive Lautstärkeregulation findet zwar schon im Mittelohr statt, die Zeitskala
des akustischen Reflexes, der Versteifung der Hörknöchelchen, bewegt sich allerdings im Bereich von 2 - 10 ms. Die damit entstehende Lücke zwischen dem Beginn
des Signals und dem Einsetzen des akustischen Reflexes würde genau durch die vorgeschlagene neuronale Unterdrückung geschlossen. Zusätzlich wird der dorsale Teil
des Nucleus Cochlearis von Nerven aus höheren Zentren konnektiert, was theoretisch
eine Steuerung der Lautstärkeanpassung durch höhere Zentren, wie sie auch für den
akustischen Reflex vorliegt, ermöglicht. Ist eine solche Funktion des Mechanismus
gegeben, spräche das klar für eine breite Streuung der Inhibition.
Gehen wir von einem Mechanismus der Echounterdrückung aus, wäre hingegen eine wenig ausgeprägte Streuung der Inhibition naheliegend. Echos sind, wie bereits
mehrmals erwähnt, stets frequenzspezifisch; plausibel für eine Echounterdrückung
wäre also ebenfalls Frequenzspezifizität - falls sie ausschliesslich diese eine Funktion
haben soll. Es ist aber nicht klar, ob eine Echounterdrückung frequenzspezifisch sein
muss.
So ist bekannt, dass Hörereignisse, die zum gleichen Zeitpunkt einsetzen, miteinander assoziiert werden. In einem Orchester beispielsweise spielen die verschiedenen Instrumente mit einem kleinen, vom Zuhörer nicht wahrgenommenen Versatz schlicht, weil die Musiker sonst die Stimme ihres eigenen Instrumentes nicht mehr
identifizieren können. Wenn das auditorische System Signale, die genau zeitgleich
einsetzen, grundsätzlich einer einzigen Quelle zuordnet, ist als Konsequenz die Unterdrückung von Echos nicht zwingenderweise frequenzspezifisch. Also ist es auch
nicht nötig, im Modell an frequenzspezifischer Inhibition festzuhalten.
Für die am leichtesten interpretierbaren Ergebnisse, das Verhalten für Klicks, macht
es in den Simulationen keinen Unterschied, ob die Unterdrückung frequenzspezifisch
oder über eine breite Streuung erfolgt. Für einen Reinton wird im Falle einer breiten
Streuung die Aktivität insgesamt reduziert, die Phaseninformation des Tons bleibt
jedoch vollständig erhalten. Für eine frequenzspezifische Inhibition gibt es hingegen
keinen expliziten Grund.
Wir kommen daher zu der Schlussfolgerung, dass der in dieser Arbeit beschriebene
Mechanismus neuronaler Inhibition auf biologischer Ebene über eine breite Streuung
53
der Inhibition in Nachbarkanäle realisiert ist. Die erzielte Wirkung ist die einer
monauralen Unterdrückung schneller Echos sowie eine Reduzierung der effektiven
Lautstärke.
Bezug zur Hörakustik und mögliche Anwendung
Der von uns vorgestellte Mechanismus könnte in einigen Bereichen der Hörakustik
Anwendung finden, so zum Beispiel aktuell in der elektronischen Spracherkennung,
oder, damit verwandt, auch in Hörgeräten. Sowohl für elektronische Systeme als
auch für schwerhörige Menschen ist es in Umgebungen mit vielen Reflexionen nicht
leicht, speziell Sprache zu verstehen. Die Echos ’verwischen’ die Signale, was das
Erkennen und Verstehen erschwert.
In der Hörakustik beschäftigt man sich schon seit langem mit diesem Problem. So
bestand die erste Generation von Hörgeräten noch aus rein analogen Verstärkern, die
breitbandig die Lautstärke aller akustische Reize, eventuell mit besonderer Verstärkung im hohen, mittleren oder tiefen Frequenzbereich, angehoben haben. Dementsprechend wurden nicht nur Signale, sondern auch sämtliche Hintergrundgeräusche,
insbesondere die Echos, mitverstärkt. Derartige Geräte waren in vielen Situationen
nur bedingt hilfreich.
Die zweite Generation, bereits auf digitaler Technik basierend, ermöglichte dann
die gezielte Verstärkung ganz bestimmter Frequenzbereiche und damit ein erheblich
differenzierteres Hörbild. Störgeräusche mit charakteristischen Frequenzen wie zum
Beispiel Straßenlärm konnten so von der Verstärkung ausgenommen werden.
Die dritte, aktuelle Generation der Hörgeräte sind elektronische Systeme von hoher
Komplexität: mit bis zu drei Mikrophonen pro Ohr können sie Geräusche lokalisieren und auf Wunsch richtungsspezifisch verstärken, Sprache als solche erkennen und
hervorheben, Windgeräusche unterdrücken, Rückkopplungen auslöschen und vieles
mehr. Bei dem Lesen der Datenblätter dieser Hörgeräte wird einem bewußt, was
für eine atemberaubende Entwicklung dieser Bereich in den letzten Jahrzehnten
durchlaufen hat.
In modernen Hörgeräten sind somit auch die technischen Voraussetzungen für die
Implementierung einer Echounterdrückung erfüllt. Tatsächlich ist im Jahr 2005 von
einem der weltweit führenden Hörgerätehersteller, der Schweizer Firma Phonak,
das erste Hörgerät mit eingebauter Echounterdrückung vorgestellt worden. Es handelt sich um das Modell Savia“, die angesprochene Technologie läuft unter dem
”
Namen Echoblock“. Ihre Funktionsweise ist, da weltweit einmalig, ein Betriebsge”
heimnis. Anhand der öffentlich zugänglichen Information kann jedoch abgeschätzt
werden, inwieweit Echoblock“ unserem Modell ähnelt und unseren Überlegungen
”
54
KAPITEL 4. INTERPRETATION UND ANWENDUNG
so zusätzliches Gewicht verleiht.
Abbildung 4.1: Auszug aus einem Prospekt über das System Savia der Firma
Phonak. Originaluntertitel: Das Prinzip von EchoBlock. Der Nachhall wird erkannt
”
und unterdrückt“. Die Aktivität klingt nach Ende des Signals asymptotisch ab,
macht dann aber einen scharfen Knick und fällt schlagartig auf Null. Für unser
Modell ist ein derartiger Knick nicht zu erwarten, die Aktivität wird nach Ende des
Signals aber schneller als exponentiell auf Null fallen.
Abbildung 4.1 zeigt schematisch die Funktionsweise des Systems Echoblock“. Auf”
getragen ist offensichtlich der Schalldruck über der Zeit. Über eine gewisse, mit
Signal“ unterschriebene Zeit ist der Schalldruck konstant, dann fällt der Schall”
druck, vermutlich exponentiell, ab ( Nachhall-Ausläufer“). Hier greift EchoBlock“
”
”
und unterdrückt den langen Schwanz des Nachhalls.
Für einen Vergleich mit unserem Modell müssen wir uns Gedanken über das Verhalten der von uns vorgeschlagenen Verschaltung bei einem abklingenden Ton machen. In diesem Zusammenhang ist eine Publikation aus dem Jahr 1960 interessant. Es handelt sich um eine Untersuchung von Stein, in der das Absinken der
Mithörschwelle nach dem Abschalten von weissem Rauschen studiert wird [14]. Die
Probanden hören zunächst einen 500 ms langen Rauschpuls. Nach Ende des Rauschens wird ihnen zu verschiedenen Zeitpunkten ein 30 µs-Klick vorgespielt. Aufgabe
der Versuchspersonen ist es, die Lautstärke des Klicks so einzustellen, dass er gerade
wahrnehmbar ist.
Der Wert der Lautstärke, bei dem der Klick gerade wahrgenommen wird, heisst
Mithörschwelle. Nicht überraschend ist, dass mit steigendem zeitlichen Abstand
des Klicks die Mithörschwelle sinkt. Ungefähr 300 ms nach Ende des Rauschens
wird die natürliche Hörschwelle der Klicks erreicht, ab diesem Zeitpunkt beeinflusst das vorhergehende Signal die Wahrnehmung also nicht mehr. Interessant
55
ist jedoch die Veränderung der Wahrnehmung innerhalb dieser ersten 300 ms: Bis
4 ms nach Ende des Rauschens bleibt die Mithörschwelle auf dem gleichen Pegel
wie während des Rauschens, dann folgt ein Absinken der Mithörschwelle auf die
natürliche Hörschwelle. Das Absinken folgt dabei keinem exponentiellen Gesetz, es
ist wesentlich schneller.
Während das schnelle Absinken nur Spekulationen über einen aktiven Mechanismus
der Wahrnehmungsunterdrückung nährt, kann die Verzögerung des Absinkens nach
Ende des Tones um 4 ms sehr leicht mit unserem Modell erklärt werden: Analog
zu der Verzögerung der Inhibition zu Beginn eines Tones erfolgt ihr Abklingen mit
Verspätung. Das Gleichgewicht zwischen Inhibition und Exzitation, das sich, wie im
vorherigen Kapitel gesehen, bei einem anhaltenden Ton einstellt, wird bei dem Ende
oder einer Abschwächung des Reintons gestört. Die Exzitation wird augenblicklich,
die Inhibition jedoch mit Verzögerung abfallen. Aus der anhaltenden Inhibition folgt
die von Stein beschriebene Verzögerung im Absinken der Mithörschwelle.
Klingt das Signal langsam ab, wird es so zu einem bestimmten Zeitpunkt immer von
der zu einem vorhergehenden und damit stärkeren Signal gehörenden Inhibition
unterdrückt werden. Damit ist die Inhibition und folglich die Unterdrückung des
Nachhalls überproportional stark.
Wir sehen also, dass das Verhalten unseres Modells mit einem weiteren, gänzlich
anderen psychophysikalischen Experiment übereinstimmt. Zusätzlich scheint der
im Hörgerät der Firma Phonak Anwendung gefunden habende Algorithmus zur
Echounterdrückung zumindest prinzipiell unserer Verschaltung ähnlich zu sein. Damit verstärken sich die für das vorgeschlagene Modell sprechenden Indizien, es ist
aber auch möglich, dass der untersuchte Mechanismus bereits seinen Weg in die
Anwendung gefunden hat.
Bedenkt man nun einerseits, aus welchen Jahren die für die vorliegende Arbeit entscheidenden Publikationen stammen, nämlich 1960 (Harris et al.) und 1990 (Wickesberg und Oertel), als auch andererseits die äußerst überschaubare Architektur der
untersuchten Verschaltung, stellt sich die Frage, ob bei einer mehr am biologischen
Vorbild orientierten Forschung die Echounterdrückung ihren Weg nicht schon viel
früher in Produkte des Alltags gefunden hätte.
Am Beispiel der vorliegenden Arbeit wird damit ein weiteres Mal deutlich, wie
fruchtbar es für Forschung und Entwicklung sein kann, sich an biologischen Lösungsstrategien zu orientieren.
56
KAPITEL 4. INTERPRETATION UND ANWENDUNG
Kapitel 5
Zusammenfassung
Zu Beginn dieser Arbeit wurde einleitend festgestellt, dass Echos nicht nur in den
gemeinhin mit Echos assoziierten Umgebungen wie zum Beispiel Bergen existieren
sondern Teil unseres Alltags sind. Gewöhnlich werden die Echos jedoch nicht bewusst
wahrgenommen, da sie von unserem Nervensystem unterdrückt werden. Thema der
Arbeit ist ein Mechanismus zur Unterdrückung von Echos, genauer ein neuronales
Modell für die monaurale Echounterdrückung.
Eine Reihe von psychophysikalischen Experimenten weist darauf hin, dass ein einsetzendes Signal, sei es nun Klick oder Reinton, eine Inhibition auslöst, die dann
nachfolgende Reize unterdrückt. Diese Unterdrückung hat ihr Maximum einige Millisekunden nach Beginn des ersten Reizes. Basierend auf biologischen Forschungsergebnissen erstellen und untersuchen wir ein Modell, das eine mögliche neuronale
Implementierung monauraler Echounterdrückung darstellt. Hierfür verwenden wir
zwei verschiedene Typen von Neuronmodellen, einmal Poisson-Neurone, die nur entfernt biologischen Neuronen entsprechen, dafür aber eine analytische Lösung für die
vorgeschlagene Verschaltung ermöglichen, und als zweites Spikes-Response-Neurone,
die biologische Neurone sehr realistisch beschreiben, im Gegenzug aber numerische Simulationen erfordern. Untersucht wird das Verhalten für in verschiedenen
Abständen aufeinander folgende Klicks und einsetzende Reintöne.
Beginnen wir mit den analytischen Lösungen. Erwartungsgemäß werden Klicks, die
anderen Klicks folgen, unterdrückt. Diese Unterdrückung ist maximal für Klickintervalle von einigen Millisekunden. Es zeigt sich, dass die charakteristische Zeit der
Inhibition nicht nur Verzögerung und Dauer der Unterdrückung beeinflusst, sondern
auch ihre Stärke. Auf einen einsetzenden Reinton reagiert das System zunächst mit
einem Absinken der Feuerrate. Danach erklimmt die Aktivität ein mehr oder min57
58
KAPITEL 5. ZUSAMMENFASSUNG
der ausgeprägtes Maximum, um dann auf einen Gleichgewichtswert zu fallen. Der
zeitliche Verlauf der Unterdrückung wird hier von der charakteristischen Zeit der
Inhibition nicht beeinflusst, wohl aber das Ausmaß der Unterdrückung. Der Gleichgewichtswert der Feuerrate ist im Vergleich zu dem Wert, der sich ohne Inhibition
ergibt, erniedrigt. Essentiell ist, dass die vom Sinussignal verursachten Amplitudenschwankungen, das Charakteristikum des Tones, jedoch nicht vermindert werden.
Die Phaseninformation wird also im analytisch lösbaren Modell vollständig erhalten.
In den numerischen Rechnungen zeigt das Modell im Vergleich zu den analytischen
Lösungen zumindest für Klicks fast identisches Verhalten. Auch hier werden Klicks
von vorhergehenden Klicks unterdrückt, maximal ist die Unterdrückung für Klickintervalle von 2 - 3 ms. Die Variation eines im analytischen Teil nicht vorhandenen
Parameters, der Streuung der Inhibition in benachbarte Frequenzen, zeigt hier noch
keinen Einfluss auf das Verhalten des Modells. Für einen Reinton als Signal ändert
sich das. Bei geringer Streuung der Inhibition wird hier ein Teil der Phaseninformation des Tonsignals unterdrückt. Bei großer Streuung der Inhibition in benachbarte
Frequenzen wird die Phaseninformation, ähnlich den analytischen Lösungen, nicht
reduziert.
Sowohl die analytischen als auch die numerischen Ergebnisse stehen in Einklang mit
den beschriebenen psychophysikalischen Experimenten. Klicks werden von vorhergenden Klicks unterdrückt, und zwar maximal bei einem Klickabstand von wenigen
Millisekunden; Reintöne werden in den analytischen Lösungen kurz nach ihrem Beginn manipuliert, ihre Phaseninformation bleibt aber vollständig erhalten. Das gilt
für die relevanten Parametersätze auch in den numerischen Rechnungen.
In der Arbeit kommen wir zu dem Schluss, dass der untersuchte Mechanismus real existiert und seine Aufgabe sowohl die monaurale Echounterdrückung als auch
eine Lautstärkeanpassung ist. Das klare Design macht das Modell für die Theorie
ansprechend und für die Praxis verwertbar.
Anhang A
Nachtrag zu Kapitel 3.2.2
In diesem Anhang soll die aus Gründen der Übersichtlichkeit in Kapitel 3.2.2 nicht
ausgeführte mathematische Darstellung der analytischen Lösung für einen schwingenden Reinton als Eingangssignal nachgeholt werden.
In Kapitel 3.2.2 hatten wir einen einsetzenden Reinton mit folgender Inputfunktion
beschrieben:
Fin (t) = [ 1 − cos(ωt) ] Θ(t).
(A.1)
Aufgrund der Linearität des Poisson-Modells ist die gesuchte Lösung die Summe der
Lösungen für eine Heaviside-Funktion und für eine negative Kosinusfunktion. Für
eine bessere Übersichtlichkeit zerlegen wir die Lösung zudem in einen inhibitorischen
und einen exzitatorischen Teil:
λ2 (t) = λexzit.
(t) + λinhib.
(t)
2
2
Für den exzitatorischen Teil der Lösung ergibt sich
59
(A.2)
60
ANHANG A. NACHTRAG ZU KAPITEL 3.2.2
t−∆t02
1− τ
1
exzit.
Θ(t − ∆t02 )+
= α J02 τexzit. e − (t − ∆t02 ) − e
(
t−∆t02
e1
t − ∆t02
−τ
exzit. +
+ α J02 2 2
−
e
1
ω τexzit.
+1
2
ω 2 τexzit.
τexzit.
1
+
−
1
cos ω(t − ∆t02 ) +
2
2
2
1
ω τexzit.
+1
2
ω 2 τexzit.
)
t−∆t02 1
2
−τ
Θ(t − ∆t02 ).
sin ω(t − ∆t02 ) −
+
− 1 e exzit.
2
ω τexzit.
ω 2 τexzit.
λexzit.
(t)
2
(A.3)
Hier ist der erste Term identisch mit dem exzitatorischen Teil der Lösung für eine
Heaviside-Funktion als Input. Der zweite Term stammt aus der Integration über die
Schwingung.
Für den inhibitorischen Teil der Lösung gilt ebenfalls, dass der erste Summand
identisch dem inhibitorischen Term der Lösung für eine Heaviside-Funktion ist. Die
allgemeinere, also für verschiedene Relaxationszeiten von Inhibition und Exzitation
gültige Lösung ist
t−∆t
τexzit. 2 2
1
t − ∆t012
2
2− τ 012
exzit.
= α J01 J12
+
+ 2
+
e τinhib. − e
τinhib.
a3 τexzit. a2
a τexzit.
t−∆t012
2
1
t − ∆t012
2−
+ e τinhib.
+
−
−
(t
−
∆t
)
τ
Θ(t − ∆t012 ) +
012 inhib.
a3 τexzit. a2
a
(
e2
1
1
2×
+ α J01 J12 2
−
1
ω τexzit. τinhib.
τexzit. ω2 τ 2
+1 a
exzit.
t−∆t
t−∆t
2
2
1
− τ 012
− τ 012
exzit.
inhib.
e
1+
+e
t − ∆t012 −
+
2 ×
1
a
a
+1
2
ω 2 τexzit.
1
1
1
1
2
−
1
−
1
A
(t)
+
A
(t)
−
×
1
2
2
2
ω2
ω 2 τexzit.
a2
ω 2 τexzit.
ω 2 τexzit.
)
h t−∆t012 i
− τ
Θ(t − ∆t012 ),
(A.4)
e inhib. a(t − ∆t012 ) − 1 + 1
λinhib.
(t)
2
was sich im Fall identischer charakteristischer Zeiten für Inhibition und Exzitation
zu
61
"
λinhib.
(t)
2
+e
2−
2
= α J01 J12 e τ − e
t−∆t012
τ
(
−
1
ω2 τ 2
2−
t−∆t012
τ
(t − ∆t012 )3 (t − ∆t012 )2
−
6τ
2
#
(t − ∆t012 )τ − τ
1
6τ
2
+1
e−
t−∆t012
τ
2
Θ(t − ∆t012 ) + α J01 J12
(t − ∆t012 )3 +
+
e2
×
ω2 τ 2
1
2 ×
+1
)
t−∆t012
i
×
− 1 e− τ (t − ∆t012 )2
1
ω2 τ 2
h 1
1
2
1 1
−
1
A
(t)
+
A
(t)
−
1
2
ω2 τ 2
ω2
ω2 τ
2 ω2 τ 2
Θ(t − ∆t012 )
(A.5)
vereinfacht. Die Terme A1 (t) und A2 (t) sind dabei wie folgt definiert:
A1 (t) = −
t − ∆t012
τinhib. ω2 τ12
inhib.
+1
e
−
t−∆t012
τinhib.
+
1
1
2
ω 2 τinhib.
+1
2 ×
1
2
sin ω(t − ∆t012 ) −
−
1
cos ω(t − ∆t012 ) +
2
2
ω τinhib.
ω τinhib.
t−∆t012
1
−
−
− 1 e τinhib.
2
ω 2 τinhib.
(A.6)
und
012
t − ∆t012 − t−∆t
1
A2 (t) =
e τinhib. +
×
2
2
a +1
ω (a + 1)2
t−∆t
− τ 012
2
inhib.
(a − 1) sin ω(t − ∆t012 ) − 2 a cos ω(t − ∆t012 ) + 2 a e
,
(A.7)
wie in Kapitel 3.2.2 gilt
a=
1
τexzit.
−
1
τinhib.
.
(A.8)
62
ANHANG A. NACHTRAG ZU KAPITEL 3.2.2
Wir sehen, dass die Lösung sehr unübersichtlich ist. Es stellt sich jedoch heraus,
dass viele Terme nur wenig zum Verlauf der Lösung beitragen. Die Lösung verhält
sich näherungsweise wie die Summe aus der Lösung für eine Heaviside-Funktion und
der negativen Kosinusfunktion.
Literaturverzeichnis
[1] Jens Blauert, Spatial Hearing, MIT Press Cambridge, Massachusetts (1999)
[2] R.K. Clifton, Breakdown of echo suppression in the precedence effect, Journal
of the Acoustical Society of America 82 (1987) 1834-1835
[3] G.M. Edelman, Auditory function, Wiley New York (1988)
[4] R.L. Freyman, R.K. Clifton and R.Y. Litovsky, Dynamic processes in the
precedence effect, Journal of the Acoustical Society of America 90 (1991) 874884
[5] M.B. Gardner, Historical Background of the Haas and/or Precedence Effect,
Journal of the Acoustical Society of America 43 (1968) 1243-1248
[6] H. Haas, Über den Einfluss des Einfachechos auf die Hörsamkeit von Sprache,
Acustica 1 (1951) 49-58
[7] E.R. Hafter and R.H. Dye, Detection of interaural differences of time in trains
of high frequency clicks as a function of interclick interval and number, Journal
of the Acoustical Society of America 73 (1983) 644-651
[8] E.R. Hafter and E.M. Wenzel, Lateralization of transients presented at high
rates: site of the saturation effect, Hearing - physiological basis and psychophysics, edited by R. Klinke and R. Hartman, Springer Berlin (1983) 220-208
[9] E.R. Hafter et al., Onset coding in lateralization: Its form, site and function,
Auditory function, edited by G.M. Edelman, Wiley (1988) 647-674
[10] G.G. Harris, J.L. Flanagan and B.J. Watson, Binaural Interaction of a Click
with a Click Pair, Journal of the Acoustical Society of America 35 (1963) 672678
63
64
LITERATURVERZEICHNIS
[11] J.L. van Hemmen, Theory of Synaptic Plasticity, Handbook of Biological Physics (Vol.4), Neuro-informatics, Neural Modelling, Elsevier Amsterdam (2001)
[12] R. Klinke, Hearing, Springer Berlin (1983)
[13] B. Rakerd and W.M. Hartmann, Localization of sound in rooms: III. Onset
and duration effects, Journal of the Acoustical Society of America 78 (1986)
1695-1706
[14] H.J. Stein, Das Absinken der Mithörschwelle nach dem Abschalten von weissem
Rauschen, Acustica 10 (1960) 116-119
[15] R.E. Wickesberg and D. Oertel, Tonotopic projection from the dorsal to the
anteroventral cochlear nucleus of mice, Journal of Comparative Neurology 268
(1988) 389-399
[16] R.E. Wickesberg and D. Oertel, Delayed, Frequency-Specific Inhibition in the
Cochlear Nuclei of Mice: A Mechanism for Monaural Echo Suppression, Journal
of Neuroscience 10 (1990) 1762-1768
[17] W.A. Yost, Fundamentals of hearing, Academic Press San Diego (1994)
[18] P.M. Zurek, The precedence effect and its possible role in the avoidance of
interaural ambiguities, Journal of the Acoustical Society of America 67 (1980)
952-964
[19] E. Zwicker, Psychoacoustics, Springer Berlin (1999)

Documentos relacionados