Technische Universität München

Transcrição

PHYSIK DEPARTMENT
Neurophysik
der Echounterdrückung
Diplomarbeit von
Moritz Bürck
abgegeben am
18. Oktober 2005
betreut von
Prof. Dr. J. Leo van Hemmen
Technische Universität München
2
Inhaltsverzeichnis
1 Echo und Echounterdrückung
5
2 Zur monauralen Echounterdrückung
9
2.1
Psychophysikalische Experimente . . . . . . . . . . . . . . . . . . . .
2.2
Biologische Evidenz
. . . . . . . . . . . . . . . . . . . . . . . . . . .
3 Das Modell
9
15
19
3.1
Aufbau
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
3.2
Analytik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
3.2.1
Lösung für einen Klick . . . . . . . . . . . . . . . . . . . . . .
22
3.2.2
Lösung für einen einsetzenden Reinton . . . . . . . . . . . . .
25
3.2.3
Fazit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
Numerik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
31
3.3.1
Verhalten für Klicks und Klickpaare . . . . . . . . . . . . . .
33
3.3.2
Verhalten für Reintöne . . . . . . . . . . . . . . . . . . . . . .
40
3.3.3
Verhalten für Rauschen . . . . . . . . . . . . . . . . . . . . .
45
3.3.4
Fazit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
47
3.3
4 Interpretation und Anwendung
51
5 Zusammenfassung
57
3
4
A Nachtrag zu Kapitel 3.2.2
INHALTSVERZEICHNIS
59
Kapitel 1
Echo und Echounterdrückung
Der im Alltag verwendete Begriff des Echos stammt aus der griechischen Mythologie.
Dort ist Echo der Name einer Nymphe, die von Zeus den Auftrag erhielt, seine
Gattin Hera mit dem Erzählen von Geschichten zu unterhalten, damit Zeus Zeit für
seine amourösen Abenteuer hatte. Als Hera dies entdeckte, beraubte sie Echo der
Sprache und ließ ihr lediglich die Fähigkeit, die letzten an sie gerichteten Worte zu
wiederholen. Daher nennen wir den Widerhall eines Wortes oder Klanges Echo.
Wissenschaftlicher kann man ein Echo als eine, meist abgedämpfte, Wiederholung
eines akustischen Signals bezeichnen. Die Dämpfung ist üblicherweise von Frequenz
zu Frequenz verschieden stark ausgeprägt, jeder Frequenzkomponente des Echos geht
aber eine identische Frequenz im Signal voraus. Zwar können Schallwellen durch eine
Reflexion an sehr schnell bewegten Objekten ihre Frequenz ändern (Doppler-Effekt),
in natürlichen Umgebungen spielt dieser Effekt jedoch keine Rolle. Bei der Reflexion
an Wänden und anderen unbewegten Objekten wird die Frequenz der Echos nicht
manipuliert. Aus diesem Grund bezeichnet man Echos als frequenzspezifisch.
Im Allgemeinen sind Echos Reflexionen eines akustischen Signals an Wänden und
sonstigen Gegenständen der Umgebung. Dabei nehmen Schallwellen nicht nur den
direkten Weg von der Schallquelle zum Ohr, sondern auch alle anderen möglichen
Wege (s. Abb. 1.1).
So treffen nach einem Signal zeitlich versetzt zahlreiche dem Signal ähnelnde Reflexionen in unserem Ohr ein. Überschreitet die zeitliche Verzögerung einen bestimmten Wert, die Echoschwelle, nehmen wir die Reflexionen bewusst als eigenständiges
Schallereignis, als Echo, wahr. Das geschieht zum Beispiel in den Bergen, wo in weiterer Entfernung der Schallquelle eine oder wenige reflektierende Flächen existieren.
Aber auch in Kirchen oder gefliesten Bädern sind aufgrund der Vielzahl besonders
5
6
KAPITEL 1. ECHO UND ECHOUNTERDRÜCKUNG
Abbildung 1.1: Echos sind Reflexionen eines akustischen Signals z.B. an Wänden.
Schallwellen nehmen nicht nur den direkten Weg von der Schallquelle zum Hörer,
sondern auch alle anderen möglichen Wege.
gut reflektierender Flächen Mehrfachreflexionen möglich und somit Echos hörbar.
Dort führt die Überlagerung der zahlreichen Echos allerdings zu einem diffusen
Klangbild, dem sogenannten Nachhall.
Reflexionen, die vor der Echoschwelle am Ohr eintreffen, werden nicht bewusst wahrgenommen. Die Unterdrückung der Wahrnehmung dieser schnellen Echos bezeichnet
man als Echounterdrückung.
Echounterdrückung ist ein neuronaler Prozess. Die für Nervenzellen relevante Zeitskala liegt im Bereich von Millisekunden; die Echoschwelle für gesprochene Sprache
unter Laborbedingungen zum Beispiel liegt in der Größenordnung von 20 ms [1].
Der Zeitraum vom Beginn des Signals bis zur Echoschwelle ist also relativ groß. So
lässt sich der Komplex der Echounterdrückung bei näherer Betrachtung in zwei unabhängige Mechanismen unterteilen: die langsamere binaurale Echounterdrückung
und die schnellere monaurale Echounterdrückung. Erstere wertet - wie der Name
sagt - die Information beider Ohren aus, wohingegen Letztere bereits mit nur einem
Ohr funktioniert. Das lässt sich leicht in einem kleinen Experiment überprüfen. Hält
man sich in einem größeren Raum wie zum Beispiel einem Hörsaal probeweise ein
Ohr zu, wird mit kurzer Verzögerung ein Teil der sonst unhörbaren Echos hörbar.
In einem kleinen Raum hingegen ist das nicht der Fall.
Wie wesentlich Echounterdrückung für die Wahrnehmung unserer Umwelt ist, wird
sofort klar, wenn man sich die Echounterdrückung wegdenkt. Deutlich wird das
am Beispiel der Bahnhofshalle. Jeder weiß, wie mühsam es oft ist, in einer Bahn-
7
hofshalle Lautsprecherdurchsagen zu verstehen. Das hat zwei Gründe: zum einen
werden die verschiedenen Lautsprecher vor allem in alten Anlagen oft mit kleinen Verzögerungen angesteuert, was quasi künstlich Echos erzeugt; zum anderen
ermöglichen die Weite und die großen, gut reflektierenden Wände einer Bahnhofshalle sehr große Zeitunterschiede zwischen Signal und Echo, was heißt, dass die
Echounterdrückung zu großen Teilen umgangen wird. Ein Gespräch ohne Echounterdrückung würde sich demnach in einem normalen Zimmer ähnlich wie Lautsprecherdurchsagen in einer Bahnhofshalle anhören. Manchmal sind Echos allerdings
erwünscht: In Konzerthallen beispielsweise wird viel Mühe darauf verwendet, den
Saal so zu gestalten, dass bewusst nicht wahrnehmbare Echos das Klangbild verbessern.
Besondere Erwähnung verdient die Echounterdrückung im Zusammenhang mit der
Ortung von Hörobjekten vor allem in engen und unübersichtlichen Umgebungen.
Hier sind potentielle Feinde im Vergleich zu einem weiten und offenen Umfeld wie
beispielsweise der Savanne nur sehr schwer zu entdecken. Deswegen ist es dort in
besonderem Maße überlebenswichtig, Schallquellen schnell und zuverlässig orten zu
könnnen. Das setzt voraus, dass die irreführende Ortsinformation der Echos nicht
gewertet wird. Tatsächlich ist das auch der Fall. Wir stützen uns bei der Ortung
von Schallquellen fast ausschließlich auf den schnellen bzw. direkten Schall, also die
ersten Wellenfronten des Signals. Dieses Phänomen wird Law of the First Wave
”
Front“ oder auch Precedence Effect“ (früher Haas Effekt“) genannt [5, 6].
”
”
Die wesentlichen und für das Verständnis der kommenden Kapitel wichtigen Punkte
lassen sich wie folgt zusammenfassen:
1. Echos sind frequenzspezifisch
2. Schnelle Echos werden unterdrückt
3. Es gibt binaurale und monaurale Echounterdrückung
Im Zentrum der vorliegenden Arbeit steht die monaurale Echounterdrückung. Es
wird zunächst ein Überblick über relevante psychophysikalische Experimente und
biologische Forschungsergebnisse geliefert. Dann wird das Modell einer möglichen
neuronalen Implementierung vorgestellt und sein analytisches und numerisches Verhalten für Klicks und Reintöne untersucht. Im letzten Kapitel werden biologische
Bedeutung und mögliche Anwendungen besprochen.
8
KAPITEL 1. ECHO UND ECHOUNTERDRÜCKUNG
Kapitel 2
Zur monauralen
Echounterdrückung
Im Folgenden sollen einige Forschungsergebnisse vorgestellt werden, die mit der monauralen Echounterdrückung in direktem Zusammenhang stehen. Die psychophysikalischen Experimente beschäftigen sich vor allem mit der Wahrnehmung von Klicks
oder kurzen Tonimpulsen in der Gegenwart von anderen Klicks oder Tönen. Der anatomische Aspekt wird durch eine Arbeit abgedeckt, die eine neuronale Verschaltung
im Hirn von Mäusen untersucht, die möglicherweise für die monaurale Echounterdrückung zuständig ist.
2.1
Psychophysikalische Experimente
Den ersten und deutlichsten Hinweis auf die Existenz der monauralen Echounterdrückung finden wir in einer Veröffentlichung aus dem Jahre 1963 [10]. Harris et al.
von den Bell Laboratories untersuchten die binaurale Wechselwirkung eines einzelnen Klicks mit einem Klickpaar.
Den Probanden werden über einen Kopfhörer insgesamt drei Klicks vorgespielt. Auf
einem Ohr hören sie ein Klickpaar, bestehend aus Klick B und Klick C in einem
Abstand von entweder 0.5, 1, 2, 4 oder 8 Millisekunden; auf dem anderen Ohr einen
einzelnen Klick, A genannt, dessen Zeitpunkt sie selbst bestimmen können. Aufgabe
der Versuchspersonen ist es nun, das Schallereignis zu zentrieren, das heisst, den
einzelnen Klick (Klick A) mit dem Klickpaar (Klick B und C) so abzugleichen, dass
sie die Klicks gleichzeitig wahrnehmen. Man erwartet, dass Klick A teilweise mit
9
10
KAPITEL 2. ZUR MONAURALEN ECHOUNTERDRÜCKUNG
Klick B und teilweise mit Klick C synchronisiert wird.
In Abbildung 2.1 sehen wir, dass die Ergebnisse weitgehend den Erwartungen entsprechen. Auffallend ist allerdings eine Ausnahme: wenn Klick B und C einen Abstand von 2 ms haben, wird Klick A überraschenderweise nur mit Klick B synchronisiert. In der Abbildung lässt sich der Zusammenhang im Detail nachvollziehen:
aufgetragen ist die Zahl der Zentrierungen von Klick A über den relativen interauralen Zeiten zwischen den Klicks A und B für die fünf untersuchten Interklickintervalle der Klicks B und C. Die Pfeile an den x-Achsen markieren die Zeitpunkte
von Klick B und C. Dort häufen sich die Zentrierungen. Im Fall 3 allerdings, dem
Interklickintervall von 2 ms, bleiben Zentrierungen zum Zeitpunkt von Klick C aus.
Abbildung 2.1: Die Ergebnisse von Harris et al. [10]. Aufgetragen ist die Anzahl der Zentrierungen von Klick A über dem zeitlichen Abstand zwischen Klick A
und Klick B. Die Pfeile unter den x-Achsen markieren die Zeitpunkte der Klicks
B und C. Erwartungsgemäß häufen sich dort die Zentrierungen von Klick A.
Überraschenderweise wird Klick A nicht mit Klick C synchronisiert, wenn Klick
C 2 ms nach Klick B erfolgt. Klick C ist also unhörbar, wenn der zeitliche Abstand
zum vorhergehenden Klick B 2 ms beträgt.
Offensichtlich nehmen die Versuchspersonen Klick C bei einer Verzögerung von 2 ms
nicht wahr. Bei einem Abstand von 2 ms unterdrückt Klick B also die Wahrnehmung von Klick C. Wesentlich ist, dass bei den beiden kürzeren Zeiten von 0.5 und
1 ms Klick C bereits wahrgenommen wird. Daher kann die Unterdrückung des zwei-
2.1. PSYCHOPHYSIKALISCHE EXPERIMENTE
11
ten Klicks bei 2 ms nicht durch eine neuronale Refraktärzeit erklärt werden. Auch
mechanische Eigenschaften der Basilarmembran können die Autoren als Ursache
ausschliessen.
Als Erklärung schlagen sie eine Art neuronales Tor vor, welches sich ungefähr 1 ms
nach Beginn der neuronalen Aktivität schließt und sich nach rund 2 ms wieder öffnet.
Nach den Überlegungen der Autoren könnte solch ein Mechanismus zum Beispiel
durch Selbstinhibition der vom ersten Stimulus angeregten Neuronen realisiert werden. Er müsste greifen, bevor die Signale der beiden Ohren zusammengeführt werden, d.h. spätestens auf der Ebene des Nucleus Olivaris Superioris, dem zweiten
neuronalen Kern nach der Hörschnecke. Als Ort des Mechanismus wird insbesondere der Nucleus Cochlearis in Erwägung gezogen, also der erste Kern direkt nach der
Cochlea.
Die Idee des neuronalen Tores wird von Zurek 1980 zur Erklärung seiner Forschungsergebnisse [18] aufgegriffen. Zurek spielt den Versuchspersonen zunächst
über Kopfhörer drei Paare kurzer Rauschimpulse vor. Die einzelnen Paare haben
einen Abstand von 400 ms, die Verzögerung ∆t zwischen den Rauschimpulsen eines
Paares wird zwischen 1 ms und 11 ms eingestellt. In einem der drei Paare wird jetzt
der zweite der Rauschimpulse solange verändert, bis der Proband die Veränderung
feststellen kann. Diese Veränderung erfolgt an beiden Ohren unterschiedlich, so dass
die Wahrnehmung der Veränderung ein Maß für die Fähigkeit ist, nach einem ersten, für beide Seiten identischen Signal Signalunterschiede zwischen den beiden
Ohren zu bemerken. In zwei Versuchsserien wurde die Empfindlichkeit bezüglich
Zeitverschiebungen und Amplitudenveränderungen untersucht. Am geringsten ist
die Empfindlichkeit in beiden Fällen für ein ∆t von 2 ms. Hier werden Verschiebungen von bis zu 620 µs (≥ 30% von ∆t!) und Amplitudenänderungen von bis zu 12 dB
nicht wahrgenommen.
Zu ähnlichen Ergebnissen kommt Zurek in einer weiteren Versuchsanordnung. Statt
der Impulspaare wird hier ein 50 ms dauernder Rauschimpuls verwendet. Innerhalb
des Rauschimpulses wird ein 5 ms langes Teilintervall manipuliert, und zwar wieder
auf beiden Seiten unterschiedlich. Der Zeitpunkt, zu dem diese Manipulation einsetzt, variiert zwischen 0 ms und 45 ms nach Beginn des Signals. Wie zuvor ist es
Aufgabe der Versuchsperson zu erkennen, ob das sich rechte Signal vom linken unterscheidet. Analog zu obigem Experiment findet die Manipulation einmal über eine
zeitliche Verschiebung und in einer weiteren Serie über eine Änderung der Amplitude statt. Am geringsten ist die Empfindlichkeit in den ersten 1 - 10 ms nach dem
Beginn des Rauschens. Die in diesem Zeitraum nicht wahrgenommenen maximalen Verschiebungen bzw. Amplitudenänderungen betragen bis zu 620 µs respektive
14 dB.
12
Im Kern der Versuchsergebnisse steht also, dass die interaurale Empfindlichkeit nach
dem Einsetzen eines Signals ein nichtmonotones Verhalten zeigt. Für den Zeitraum
von etwa 0.5 bis 10 ms nach dem Beginn ist die Empfindlichkeit reduziert, mit einer
maximalen Reduzierung im Bereich von 2 - 3 ms.
Wie bereits angedeutet können die Ergebnisse ebenfalls durch die Existenz des von
Harris vorgeschlagenen neuronalen Tores erklärt werden, also einer verzögerten Inhibition, die durch das Einsetzen des Signals ausgelöst wird. Nach Zurek kann der
Precedence Effect“, das heisst die Tatsache, dass die Ortung einer Schallquelle von
”
den ersten Schallwellen dominiert wird, als Resultat dieses vorübergehenden Verlustes an Empfindlichkeit verstanden werden. Erwähnenswert ist in diesem Zusammenhang eine Arbeit von Rakerd und Hartmann, in der festgestellt wird, dass der Pre”
cedence Effect“ wesentlich von einem abrupten Beginn des Tonsignals abhängt [13].
Es wäre denkbar, dass der von Harris und Zurek postulierte Mechanismus der Inhibition durch einen nur langsam hörbar werdenden Ton, der sich gewissermaßen
einschleicht“, nicht oder nur teilweise ausgelöst wird. Dadurch würde der Prece”
”
dence Effect“ wenn nicht vollkommen ausgelöscht so doch zumindest abgeschwächt
werden.
Etwas später, in den Jahren 1983 bis 1988, untersucht E. R. Hafter gemeinsam mit
verschiedenen Kollegen in einer ganzen Reihe von Veröffentlichungen die Wahrnehmung von Klicks in Klickserien, speziell in Abhängigkeit der Klickraten [7–9].
Zunächst kommen sie dort zu dem Ergebnis, dass bei Raten unter 100/s (also bei
Interklickintervallen von 10 ms und mehr) die Information der Klicks vollständig erhalten bleibt, wohingegen bei höheren Raten (bei Interklickintervallen von weniger
als 10 ms) ein Informationsverlust auftritt, der mit zunehmender Rate der Klicks
steigt. Auch wenn der Begriff der Information nicht eindeutig definiert wird, bleibt
die Tatsache der stärkeren gegenseitigen Beeinflussung der Klicks mit steigender Rate bestehen. Die Autoren zeigen, dass sich der gemessene Einfluss der Klicks aufeinander qualitativ von einem theoretisch möglichen Einfluss von sowohl neuronalen Refraktärzeiten, als auch Schmalbandfiltern und der Nicht-Unabhängigkeit aufeinander
folgender interner Rauschproben unterscheidet. Erklärt werden könnte das Verhalten laut Hafter und Kollegen jedoch durch einen neuronalen Sättigungsprozess“.
”
In den nachfolgenden Untersuchungen stellen Hafter und Kollegen fest, dass die
von ihnen beschriebene Sättigung in einzelnen Frequenzbändern stattfindet, d.h.
frequenzspezifisch ist. Auch beeinflussen interaurale Unterschiede der Signale den
Mechanismus nicht. Schließlich kommen die Autoren zu dem Schluss, dass die untersuchte Sättigung dem Precedence Effect“ nicht zugrunde liegt und es sich um
”
ein monaurales Phänomen handeln muss. Erstaunlicherweise geben sie dem Prozess
den Namen Binaurale Adaptation“. Den Sitz der Binauralen Adaptation“ vermu”
”
2.1. PSYCHOPHYSIKALISCHE EXPERIMENTE
13
ten sie im Nucleus Cochlearis, genau dem Ort also, den Harris für sein neuronales
Tor vorschlägt.
Die bis jetzt vorgestellten Mechanismen des neuronalen Tores bzw. der Selbstinhibition und des Sättigungsprozesses sind allesamt in den ersten 10 ms nach Beginn eines
Schallereignisses aktiv und unabhängig von interauralen Merkmalen. Daher werde
ich sie zur besseren Verständlichkeit im Folgenden unter dem Begriff der monauralen
Echounterdrückung zusammenfassen.
Es gibt noch zahlreiche interessante psychophysikalische Experimente zur Wahrnehmung von Klicks und Tönen in Gegenwart anderer Schallereignisse, die in den
Standardwerken der Psychoakustik nachgelesen werden können [1,3,12,17,19]. Meist
liegt der Focus der Arbeiten jedoch entweder auf der Untersuchung binauraler Effekte oder auf einem anderen als dem für uns interessanten Zeitrahmen von 10 ms nach
Beginn eines Signals. Das macht es sehr mühsam, relevante Informationen zu extrahieren. Direkte Widersprüche zu dem vorgeschlagenen Mechanismus der monauralen
Echounterdrückung habe ich in diesen Quellen allerdings nicht gefunden. Insbesondere besteht kein Widerspruch zwischen der monauralen Echounterdrückung und
dem Clifton-Effect“, in dem es um spezielle Umstände geht, unter denen Echos
”
hörbar werden [2].
Um die Problematik vieler Veröffentlichungen zu veranschaulichen, möchte ich hier
noch auszugsweise eine Veröffentlichung von Freyman, Clifton und Litovsky [4] wiedergeben. Die Autoren beschreiben drei Experimente, von denen uns nur das erste, das Screening für die beiden anderen Experimente, interessiert: Die Versuchsperson sitzt in einem schalltoten Raum zwischen zwei Lautsprechern. Mit leichter
Verzögerung geben die Lautsprecher je einen Klick wieder. Die Verzögerung variiert
zwischen 2 und 14 ms und die Versuchsperson gibt an, ob sie ein Echo hört oder
nicht. Die Ergebnisse der neun Versuchspersonen sind in Abbildung 2.2 zusammengefasst.
Aufgetragen ist der Prozentsatz der Versuchsdurchläufe, in denen die Versuchspersonen ein Echo wahrnehmen, über der Verzögerung zwischen den beiden Lautsprechern für zwei verschiedene Bedingungen. Erst wurden den Versuchspersonen die
zwei Klicks nur einmal vorgespielt (NC, für no conditioning“), dann wurden die
”
Versuchspersonen mit neun Klicks bei einer Rate von 4/s auf den Testklick eingestimmt (R4N9 für rate 4 number 9“). Man sieht, wie die - wenn hier auch nicht
”
eindeutig als monaural klassifizierbare - Echounterdrückung ihre höchsten Werte bei
einer Verzögerung von 2 - 6 ms erreicht und nach 10 ms faktisch auf null reduziert ist.
Ein Trainingseffekt ist ebenfalls zu beobachten. Festzuhalten ist, dass die Ergebnisse
nicht im Widerspruch zu obigen Ergebnissen und Postulaten stehen.
14
Abbildung 2.2: Screening von Freyman, Clifton und Litovsky [4]. Aufgetragen ist
der Prozentsatz der Versuche, in denen ein Echo wahrgenommen wurde, über der
Verzögerung der Echos. Gezeigt sind Daten von neun Personen für zwei Versuchsanordnungen: Ohne vorhergehende Einstimmung ( NC“) und mit Einstimmung auf
”
den Versuch ( R4N9“). Bei den meisten Versuchspersonen ist ein Trainingseffekt zu
”
beobachten: Echos werden mit geringerer Wahrscheinlichkeit wahrgenommen, wenn
die Probanden auf den Versuch eingestimmt wurden.
Zur Problematik der Arbeit sind mehrere Punkte zu bemerken. Zunächst sind die
Schwankungen zwischen den Versuchspersonen beträchtlich. Desweiteren sortieren
die Autoren zwei der Versuchspersonen aus, weil der zu untersuchende Effekt (der
Einfluss des Trainings auf die Wahrnehmung der Echos) nicht den Erwartungen
entsprechend zu Tage tritt. Von den verbliebenen sieben Versuchspersonen werden
für die weiterführenden Experimente vier ausgewählt, d.h. die Gesamtzahl der Versuchspersonen ist recht gering. Schließlich schreiben die Autoren selbst, dass sich
die Ergebnisse für den Fall, dass der schnellere Lautsprecher nicht der linke (wie
in den dokumentierten Experimenten) sondern der rechte war, signifikant von den
oben dargestellten Ergebnissen unterschieden, gehen darauf allerdings weiter nicht
2.2. BIOLOGISCHE EVIDENZ
15
ein.
Vor allem die großen Schwankungen von Individuum zu Individuum in Verbindung
mit der meist geringen Anzahl an Probanden sind Gründe, psychophysikalische Experimente zurückhaltend zu bewerten. Im Fall der monauralen Echounterdrückung
gibt es jedoch noch einen handfesten biologischen Hinweis, der im nächsten Abschnitt vorgestellt werden soll.
2.2
Biologische Evidenz
Um verstehen zu können, wie akustische Information tatsächlich im Gehirn verarbeitet wird, sind neurophysiologische Experimente entlang der neuronalen Pfade
des Gehörs unabdingbar. Bei Säugetieren ist der Nucleus Cochlearis der erste Nervenknoten nach der Cochlea (Hörschnecke). Der auditorische Nerv eines Ohres läuft
also aus der Cochlea direkt in den Nucleus Cochlearis. Von dort werden die Reize
eines Ohres nach beiden Seiten zu den höheren Zentren weitergeleitet. Der Nucleus
Cochlearis ist also der einzige Kern, in dem ausschließlich monaurale Information verarbeitet wird. Aus diesem Grund würde er sich als Ort für die monaurale
Echounterdrückung besonders eignen.
Wickesberg und Oertel [16] dokumentieren in ihrer Veröffentlichung zwei elektrophysiologische Versuchsreihen am Nucleus Cochlearis von Mäusen. Um ihre Experimente verständlich darstellen zu können, muss zunächst näher auf den Aufbau des
Nucleus Cochlearis eingegangen werden.
Abbildung 2.3A stellt die Reproduktion einer Aufnahme eingefärbter Zellkörper und
Nervenfasern dar, in Abbildung 2.3B sieht man schematisch die Verschaltung im
Nucleus Cochlearis. In beiden Abbildungen ist zu erkennen, dass der Nucleus Cochlearis in zwei funktionelle Untereinheiten unterteilt werden kann, den Anteroventralen Nucleus Cochlearis und den Dorsalen Nucleus Cochlearis (i. d. Abb. AVCN und
DCN). Beide Untereinheiten sind tonotop aufgebaut, d.h. nach Frequenzen geordnet
(in Abb. 2.3B l“ und h“ für low“ bzw. highfrequency“). Der auditorische Nerv
”
”
”
”
(i.d. Abb. VIII N.) ist mit beiden Untereinheiten tonotop verbunden. Zusätzlich existiert eine Projektion vom dorsalen zum anteroventralen Teil des Nucleus Cochlearis.
Die Projektion ist frequenzspezifisch, da die Neurone im DCN und ihre Zielzellen im
AVCN von den gleichen Fasern des auditorischen Nervs erregt werden [15].
Im ersten Experiment charakterisieren die Autoren Art und genaue Lokalisierung
der Verbindung vom DCN zum AVCN. Dafür werden mittels einer Injektion von
Glutamat (bekannt als Geschmacksverstärker) Zellen in verschiedenen Bereichen
des DCN erregt und gleichzeitig das intrazelluläre Potential je einer Zelle im AV-
16
CN gemessen. Die untersuchten Zellen im AVCN sind sämtlich Ziel inhibitorischer
Signale aus dem DCN. Der Bereich im DCN, der direkt oder indirekt mit den beobachteten Neuronen im AVCN in Verbindung steht, das sogenannte afferente Feld“,
”
ist stets gleich groß.
Ziel des zweiten Experiments ist die Aufklärung der zeitlichen Koordinierung der
Inhibition im Nucleus Cochlearis. Wie zuvor werden die Zellpotentiale verschiedener
Neurone im AVCN gemessen, diesmal jedoch werden sowohl DCN als auch AVCN
über eine Elektrode getrennt voneinander stimuliert. Die inhibitorischen postsynaptischen Potentiale erreichen den AVCN rund 2 ms nach der Stimulation des auditorischen Nervs, die exzitatorischen postsynaptischen Potentiale treffen mit einer
Verzögerung von 0.7 ms ein.
Wickesberg und Oertel kommen zu dem Schluss, dass Aktionspotentiale im auditorischen Nerv eine Inhibition auslösen, die spätere Signale unterdrücken kann. Die
Unterdrückung ist maximal, wenn der zeitliche Abstand zwischen den Signalen im
auditorischen Nerv 2 ms beträgt.
Damit decken sich die Schlussfolgerungen von Wickesberg und Oertel [16] vollständig
mit den Eigenschaften der monauralen Echounterdrückung. Im nächsten Kapitel
soll daher basierend auf den soeben beschriebenen Ergebnissen das Modell einer
möglichen neuronalen Realisierung der monauralen Echounterdrückung untersucht
werden.
2.2. BIOLOGISCHE EVIDENZ
Abbildung 2.3: Verschaltung im Nucleus Cochlearis gemäß Wickesberg und Oertel [16]. Links als eine Abbildung eingefärbter Zellen aus den Versuchen, rechts als
schematische Zeichnung. In Abbildung A ist sehr schön zu erkennen, wie die Fasern
des auditorischen Nervs sich aufspalten und sowohl den dorsalen (DCN) als auch
den anteroventralen (AVCN) Teil des Nucleus Cochlearis innervieren. Die mit den
eingefärbten Fasern verbundenen Zellen erscheinen als schwarze Punkte. Man sieht,
dass die von einem Nervenbündel des auditorischen Nervs innervierten Bereiche von
AVCN und DCN wieder untereinander verbunden sind. Abbildung B zeigt den gleichen Zusammenhang schematisch. Der Nucleus Cochlearis ist in beiden Untereinheiten tonotop, das heisst nach Frequenzen geordnet (siehe Beschriftung tonotopic
”
axes“, l“ und h“ für low“ bzw. high frequency“). Der auditorische Nerv kontak”
”
”
”
tiert Neurone im DCN (schwarzes Quadrat) und im AVCN (schwarzer Stern bzw.
Kreis). Die Verbindung zwischen DCN und AVCN besteht genau zwischen den Neuronen, die von den gleichen Fasern des auditorischen Nervs erregt werden. Da alle
miteinander verbundenen Nervenzellen auf diese Weise nur von einer Frequenz angesprochen werden, ist die Verschaltung frequenzspezifisch. Die vom auditorischen
Nerv ausgehenden Verbindungen sind exzitatorisch (leere Dreiecke), die Projektion
vom DCN zum AVCN ist inhibitorisch (ausgefüllte Dreiecke).
17
18
Kapitel 3
Das Modell
Zunächst soll hier konkret der Aufbau des vorgeschlagenen Modells erläutert werden, dann sein Verhalten. Dazu wird, um das Verhalten qualitativ verstehen zu
können, ein Netzwerk von Poisson-Neuronen betrachtet, anschliessend werden, für
eine näher an der Wirklichkeit liegende Beschreibung, Spike-Response-Zellen verwendet. In beiden Fällen interessiert uns speziell das Verhalten für Klickpaare und
für einen einsetzenden Reinton.
3.1
Aufbau
Der Aufbau des Modells ist denkbar einfach (s. Abb. 3.1). Analog zur von Wickesberg und Oertel vorgeschlagenen Verschaltung im Nucleus Cochlearis gibt es im
Modell drei Populationen von Neuronen: die Neurone des auditorischen Nervs, die
des anteroventralen und die des dorsalen Nucleus Cochlearis.
Die Neurone des auditorischen Nervs dienen in unserem Modell als Input. Jedes
Neuron des auditorischen Nervs ist exzitatorisch mit je genau einem Neuron der
anderen beiden Populationen verbunden. Je eine Zelle des DCN ist inhibitorisch
mit einer Zelle des AVCN verbunden, im numerischen Teil mit mehreren Zellen. Das
Output unseres Modells, die Aktivität der Neurone des AVCN, wird also bestimmt
von einer Stimulation aus dem auditorischen Nerv und einer Hemmung aus dem
DCN.
Da Echos frequenzspezifisch sind, gehen wir von einer Frequenztrennung innerhalb
der drei tonotopen Neuronpopulationen aus. Je drei verknüpfte Neurone bilden so
einen Neuronkanal i, der nur Signale einer bestimmten Frequenz f verarbeitet. Im
19
20
KAPITEL 3. DAS MODELL
numerischen Teil bildet die Projektion vom DCN zum AVCN wie erwähnt eine Ausnahme. Da eine strikte Frequenztrennung biologisch kaum realisierbar ist, nehmen
wir eine Streuung der Inhibition in benachbarte Frequenzkanäle an (gestrichelte
Linien in Abb. 3.1).
Abbildung 3.1: Verschaltung im Nucleus Cochlearis. Links die bekannte Skizze von
Wickesberg und Oertel, rechts das Modell für einen Frequenzkanal. Im rechten Bild
sind die drei miteinander verbundenen Neuronpopulationen und ihre Verbindungen
zu sehen, exzitatorische Synapsen sind durch kleine leere Kreise symbolisiert, inhibitorische durch kleine ausgefüllte Kreise; die gestrichelten Verbindungen sind nur
in den numerischen Rechnungen von Relevanz.
Zum Ziele der exakten Lösbarkeit wollen wir uns jedoch im nächsten Abschnitt
auf strikte Frequenztrennung beschränken. Als Folge reicht die Beschreibung eines
einzigen Frequenzkanals für die Charakterisierung des ganzen Modells.
3.2
Analytik
Ein reales Neuron ist, grob gesprochen, ein Schwellenelement. Exzitatorischer und
inhibitorischer Input summieren sich im Zellpotential und ein Spike wird abgefeuert, falls das Potential eine bestimmte Schwelle überschreitet. Die Schwelle stellt
eine Nichtlinearität im System dar und macht eine analytische Lösung unmöglich.
Deswegen werden wir ein auf Feuerraten basierendes Modell verwenden, das auf
die Berücksichtigung einer Schwelle verzichtet und im Gegenzug eine exakte Lösung
ermöglicht. In dem Modell wird angenommen, dass dem Feuern der Neurone ein
stochastischer Prozess, genauer, ein inhomogener Poisson-Prozess zugrunde liegt.
3.2. ANALYTIK
21
Ein Poisson-Prozess wird durch drei Eigenschaften definiert: erstens ist die Wahrscheinlichkeit im Intervall t + ∆t einen Spike zu finden gleich λ(t)∆t, zweitens ist die
Wahrscheinlichkeit in diesem Intervall zwei oder mehr Spikes zu finden o(∆t) und
drittens sind Ereignisse in disjunkten Intervallen unabhängig. Ist λ(t) eine Konstante, liegt ein homogener Poisson-Prozess vor, ist es eine Funktion von t haben wir es
mit einem inhomogenen Poisson-Prozess zu tun.
Ein Neuron, dessen Feuerverhalten mit einem inhomogenen Poisson-Prozess beschrieben werden kann, wird Poisson-Neuron genannt. In einem Poisson-Neuron
i ist die Ratenfunktion durch
λi (t) = ν 0 + v(t) = ν 0 +
X
Jij (tfj ) (t − tfj )
(3.1)
j,f
definiert [11]. ν 0 ist die spontane Feuerrate und v(t) steht für das Zellpotential. Es
ist bestimmt durch die Summe über alle Inputneurone j und ihre Feuerzeiten tfj (im
Summenzeichen mit f abgekürzt). Jij steht für die Stärke des Input von Neuron j;
(t) steht für den Einfluss eines Spikes im Inputneuron j auf das Zellpotential v(t)
des betrachteten Neurons i, das postsynaptische Potential.
Das postsynaptische Potential wird für den exzitatorischen Input allgemein mit der
Alphafunktion beschrieben,
(t) = (t/τ ) exp(1 − t/τ )
(3.2)
mit τ als charakteristischer Zeit üblicherweise im Bereich von Millisekunden. Aufgrund der Kausalität verschwindet (t) für t < 0. Analog zu den exzitatorischen
postsynaptischen Potentialen (EPSP) wollen wir auch inhibitorische postsynaptische Potentiale (IPSP) mit der Alphafunktion beschreiben. Ferner setzen wir ohne
Beschränkung der Allgemeinheit die spontanen Feuerraten auf null.
In Gleichung (3.1) wird über Spikes summiert. Es kann gezeigt werden, dass es legitim ist, hier zu einer Integration über den Erwartungswert der Spikes überzugehen
[11]. Als Konsequenz nehmen wir an, dass die Ratenfunktion für die Neurone im
auditorischen Nerv proportional zum Eingangssignal Fin (t) ist, das heisst
λ0 (t) = α Fin (t).
(3.3)
Ferner folgt für die Ratenfunktionen in den anderen beiden Neuronpopulationen,
dass sie beschrieben werden können durch
22
Z
∞
ds exzit. (s) λ0 (t − ∆t01 − s)
λ1 (t) = J01
(3.4)
0
im dorsalen Teil des Nucleus Cochlearis und analog dazu im anteroventralen Teil
mit
Z
∞
Z
∞
ds inhib. (s) λ1 (t − ∆t12 − s).
ds exzit. (s) λ0 (t − ∆t02 − s) + J12
λ2 (t) = J02
0
0
(3.5)
∆tij ist dabei die axonale Verzögerung zwischen Neuron i und j. Für die uns interessierende Aktivität im anteroventralen Teil des Nucleus Cochlearis als Funktion
des Input Fin (t) ergibt sich somit:
∞
Z
λ2 (t) = α J02
Z0 ∞
+ α J01 J12
0
ds exzit. (s) Fin (t − ∆t02 − s) +
Z ∞
ds exzit. (s)
ds0 inhib. (s0 ) Fin (t − ∆t01 − ∆t12 − s − s0 )
0
(3.6)
Die Lösungen dieser Gleichung für verschiedene Inputfunktionen werden in den
nächsten beiden Abschnitten vorgestellt. Dort bezeichnet stets λ0 (t) die Ratenfunktion der Neurone im auditorischen Nerv, λ1 (t) die Ratenfunktion der Neurone im
DCN und λ2 (t) die Ratenfunktion der Neurone im AVCN.
3.2.1
Lösung für einen Klick
Als erstes soll uns die Lösung für einen Klick interessieren. Ein idealer Klick ist
unendlich kurz, bleibt aber hörbar. Da im Ohr das Empfinden der Lautstärke über
eine Integration erfolgt, heisst das, dass das Integral eines Klick über der Zeit nicht
verschwindet. Eine Deltafunktion als Input ist somit für unsere Zwecke perfekt. Es
sei also
λ0 (t) = α δ(t).
(3.7)
Nehmen wir zunächst an, die charakteristischen Zeiten von EPSP und IPSP, τexzit.
und τinhib. , seien beide identisch τ . Mit Gleichung (3.7) ergibt (3.6) sich dann zu:
3.2. ANALYTIK
λ2 (t) = α J02
23
(t − ∆t02 ) 1− t−∆t02
(t − ∆t012 )3 2− t−∆t012
τ
τ
e
e
+ α J01 J12
,
τ
6 τ2
(3.8)
mit ∆t012 = ∆t01 + ∆t12 . Der erste Term spiegelt den exzitatorischen, der zweite
den inhibitorischen Einfluss auf die Spikerate wider. Aufgrund der Kausalität gilt
der exzitatorische Term nur für Zeiten t > ∆t02 und der inhibitorische Term nur für
Zeiten t > ∆t012 . Gleichung (3.8) lässt sich zu
λ2 (t) = α J02 (t − ∆t02 ) + α J01 J12
e1 (t − ∆t012 )2
(t − ∆t012 )
6τ
(3.9)
vereinfachen. Der exzitatorische Teil hat trivialerweise genau die Form eines postsynaptischen Potentials. Die Inhibition hat ebenfalls die Form einer Alphafunktion,
jedoch zeitlich verschmiert. Die Lösung verliert erheblich an Übersichtlichkeit, wenn
sich die charakteristischen Zeiten von Inhibition und Exzitation unterscheiden:
J01 J12
λ2 (t) = α J02 (t − ∆t02 ) + α
×
τexzit. τinhib.
(
"
#
t−∆t
t − ∆t012
2
2− τ 012
inhib.
e
2 −
3 +
1
1
1
1
τexzit. − τinhib.
"
#)
t−∆t
t − ∆t012
2
2− τ 012
exzit.
+e
.
2 +
3
1
1
1
1
(3.10)
In Abbildung 3.2 sind die beiden Lösungen im Vergleich zu ihrem exzitatorischen
Einfluss auf die Feuerrate aufgetragen; die Parameter sind biologisch plausibel und
entsprechen soweit anwendbar den später im numerischen Teil verwendeten Werten.
Die grüne Kurve soll lediglich dem besseren Vergleich dienen und stellt den rein
exzitatorischen Teil der Lösung dar, also den Verlauf eines EPSP. Die rote und die
blaue Kurve sind Lösungen von Gleichung (3.6). Die rote Kurve stellt die Lösung
für identische charakteristische Zeiten von Inhibition und Exzitation dar, die blaue
Kurve erhält man bei einer Vergrößerung der charakteristischen Zeit der Inhibition. In beiden Fällen wird die abfallende Flanke des EPSP durch den Einfluss der
Inhibition deutlich verschoben, das Signal also verschmälert. Wichtig ist, dass ein
ausgeprägtes Minimum der Feuerrate existiert. Für identische charakteristische Zeiten liegt es in Abbildung 3.2 bei ca. 2.5 ms, für die vergrößerte Zeit der Inhibition
verschiebt sich das Minimum nach rechts (hier auf ca. 3.5 ms) und fällt stärker aus.
24
Abbildung 3.2: Lösungen von Gleichung (3.6) für eine Deltafunktion. Aufgetragen
ist die relative Feuerrate in willkürlichen Einheiten über der Zeit in Millisekunden.
Nach einem kurzen Anstieg sinkt die Feuerrate kurzzeitig unter die Spontanaktivität auf ein ausgeprägtes Minimum. Dieses Minimum verschiebt und verstärkt
sich für größere charakteristische Zeiten der Inhibition. Nachfolgende Reize werden zu Zeiten einer negativen relativen Feuerrate unterdrückt. Das Verhalten deckt
sich also mit den psychophysikalischen Experimenten. α = J01 = J02 = 1, J12 = −0.75,
∆t02 = 0.2 ms, ∆t012 = 0.4 ms, τexzit. = 0.5 ms. Für die rote Kurve gilt τinhib. = 0.5 ms,
für die blaue τinhib. = 2 ms.
Das Verhalten für Klickpaare kann aus dem Verhalten für Klicks abgeleitet werden, da das Poisson-Neuron ein lineares Modell ist. Die Lösung für ein Klickpaar
ist aus diesem Grund die Summe der beiden Lösungen für die einzelnen Klicks. Aus
Abbildung 3.2 ist somit ersichtlich, dass ein Klick den nachfolgenden unterdrückt.
Der Zeitpunkt der maximalen Unterdrückung verschiebt sich mit zunehmender charakteristischer Zeit der Inhibition nach rechts, zugleich wird die Unterdrückung
stärker. Eine schnelle Unterdrückung ist bei ansonsten gleichen Parametern also
immer schwächer als eine langsame Unterdrückung.
Ob im biologischen System eher eine schnelle, schwächere oder eine langsamere,
stärkere Unterdrückung realisiert ist, wird vor allem von der Wahrnehmungsschwelle
für Feuerraten abhängen. Je empfindlicher wir eine Steigerung der Rate wahrnehmen
können, desto stärker, ergo langsamer, muss in dem Modell die Inhibition sein, um
3.2. ANALYTIK
25
den Einfluss eines nachfolgenden Klicks annullieren zu können.
Zusammenfassend stellen wir fest, dass die Lösung unseren Vorstellungen aus den
psychophysikalischen Experimenten entspricht. Ein Klick unterdrückt nachfolgende Klicks, und zwar maximal bei einem Klickabstand von wenigen Millisekunden.
Zusätzlich wird das von einem einzelnen Klick verursachte Signal durch die Unterdrückung schmäler, also verschärft.
3.2.2
Lösung für einen einsetzenden Reinton
Der Reinton in vereinfachter Darstellung
In erster Näherung lässt sich ein einsetzender Reinton durch eine Heaviside-Funktion
beschreiben: Erst (für t < 0) nichts (0), dann (für t > 0) ein Signal (1). Die Feuerrate
im auditorischen Nerv sei also im folgenden
λ0 (t) = α Θ(t).
(3.11)
Damit wird (3.6) gelöst von
t−∆t02
1− τ
1
exzit.
λ2 (t) = α J02 τexzit. e − (t − ∆t02 ) − e
+
(
t−∆t012
τexzit. 2 2
2
t − ∆t012
1
2−
+ α J01 J12
e τinhib. − e τexzit.
+
+
+
τinhib.
a3 τexzit. a2
a2 τexzit.
)
t−∆t
t − ∆t012
2
1
2− τ 012
inhib.
+
−
− (t − ∆t012 ) τinhib.
(3.12)
+e
a3 τexzit. a2
a
mit
a=
1
τexzit.
−
1
τinhib.
.
(3.13)
Gleichung (3.12) verkürzt sich im Fall identischer charakteristischer Zeiten für Inhibition und Exzitation zu:
26
h
i
t−∆t02
λ2 (t) = α J02 τ e1 − (t − ∆t02 ) − e1− τ
+
(
t−∆t012
(t − ∆t012 )3 (t − ∆t012 )2
2 2
2−
τ
+ α J01 J12 e τ − e
+
−
6τ
2
)
t−∆t012
+ e2− τ
(t − ∆t012 ) τ − τ 2 .
(3.14)
In (3.12) und (3.14) spiegelt wie zuvor der erste Summand den exzitatorischen, der
zweite den inhibitorischen Einfluss auf die Spikerate wider. Auch hier gilt aufgrund
der Kausalität der exzitatorische Term nur für Zeiten t > ∆t02 und der inhibitorische
Term nur für Zeiten t > ∆t012 .
Abbildung 3.3 zeigt zwei Lösungen und ihren exzitatorischen Anteil. Auch hier steht
die grüne Kurve wieder für den rein exzitatorischen Einfluss der Lösungen auf die
Feuerrate und die rote bzw. blaue Kurve für eine Lösung mit identischen bzw. verschiedenen charakteristischen Zeiten von Inhibition und Exzitation; wieder sind alle
Parameter mit den später im numerischen Teil verwendeten vergleichbar.
Die Exzitation alleine führt zu einer wachsenden Feuerrate, die rund 4 ms nach
Beginn des Signals ihr Maximum erreicht. Findet Inhibition statt, ändert sich der
Verlauf der Feuerrate deutlich. Steigt sie zunächst noch kurz an, fällt sie nach dem
Greifen der Inhibition scharf ab: hier wächst die Inhibition stärker als die Exzitation.
Dann steigt die Feuerrate wieder an, erreicht ein Maximum und fällt schließlich auf
einen Gleichgewichtswert. Für unterschiedliche charakteristische Zeiten von Inhibition und Exzitation ist ein Maximum in der Feuerrate besser sichtbar, da in diesem
Fall die Exzitation ihr Maximum deutlich schneller erreicht als die Inhibition.
Ein einsetzendes konstantes Signal führt also nach einem kurzen Anstieg zunächst
zu einem Absinken der Feuerrate bevor sie für große Zeiten auf einen Gleichgewichtswert steigt. Das Verhalten deckt sich qualitativ mit unseren Erwartungen, das heisst
den psychophysikalischen Experimenten: nachdem ein Signal erkannt wird (kurzer
Anstieg der Feuerrate), ist die Wahrnehmung kurz gestört (relative Feuerrate negativ), wonach sich ein Gleichgewichtszustand einstellt.
Die bisherigen Ergebnisse sind vielversprechend, unklar ist jedoch, ob sie relevant
sind. Denn die Modellierung eines einsetzenden Reintons durch eine HeavisideFunktion ist ausgesprochen grob, es ist keinerlei Phaseninformation enthalten. In
der Realität aber liegt natürlich kein konstantes Signal, sondern eine sinusförmige
Schwingung vor. Diese soll in den folgenden Rechnungen berücksichtigt werden.
3.2. ANALYTIK
27
Abbildung 3.3: Lösungen von Gleichung (3.6) für eine Heaviside-Funktion. Aufgetragen ist wie in Abbildung 3.2 die relative Änderung der Feuerrate in willkürlichen
Einheiten über der Zeit in Millisekunden. Zu Beginn des Signals steigt die Feuerrate
kurz an, fällt dann unter die Spontanfeuerrate und erreicht nach einem unterschiedlich stark ausgeprägten Maximum einen Gleichgewichtswert. Der Gleichgewichtswert
sinkt für steigende charakteristische Zeiten der Inhibition. Das Absinken der relativen Feuerrate auf einen negativen Wert kurz nach Einsetzen des Signals deckt
sich mit der in Experimenten beobachteten kurzen Störung der Wahrnehmung eines andauernden Signals bei seinem Einsetzen [18]. α = J01 = J02 = 1, J12 = −0.35,
∆t02 = 0.2 ms, ∆t012 = 0.4 ms, τexzit. = 0.5 ms. Für die rote Kurve gilt τinhib. = 0.5 ms,
für die blaue τinhib. = 1 ms.
Der Reinton als Schwingung
Ein idealer Reinton ist eine Sinusschwingung. Im menschlichen Ohr löst jedoch nur
eine Erhöhung des Luftdrucks, also nur jede zweite Halbschwingung des Tons, ein
neuronales Signal aus. Genaugenommen muss die Aktivität der Neurone im auditorischen Nerv für einen Reinton deshalb durch
λ0 (t) =
sin(ωt) für sin(ωt) > 0
0
für sin(ωt) ≤ 0
beschrieben werden. Diesen unhandlichen Ausdruck werden wir zum Ziel einer ge-
28
schlossenen analytischen Lösung durch
λ0 (t) = α [ 1 − cos(ωt) ] Θ(t)
(3.15)
für einen einsetzenden Reinton ersetzen. In Abbildung 3.4 wird die Bedeutung dieser Annahme klar. Im Vergleich zur grünen Kurve, dem Sinus, hat die rote Kurve,
die von uns verwendete Gleichung (3.15), verschobene, breitere Maxima. In unserer
Rechnung ist der auditorische Nerv also etwas träge, reagiert mit Verspätung und
verschmiert das Signal; der wesentliche Aspekt, der Charakter einer Schwingung, ist
jedoch erhalten.
Abbildung 3.4: Die Funktionen [ 2 sin(t) ] und [ 1−cos(t) ] im Vergleich. Die von uns
verwendete Funktion setzt weniger abrupt ein als die Sinusfunktion und ist deutlich
breiter.
Die Lösungen für (3.6) mit der in (3.15) angegebenen Input-Funktion sind wesentlich
unhandlicher als zum Beispiel noch Gleichung (3.12), weshalb hier auf eine explizite
Darstellung verzichtet wird. Sie ist in Anhang A nachzulesen.
In Abbildung 3.5 sind jedoch Graphen der Lösungen zu sehen. Die Farbkodierung ist
identisch zu den vorherigen Abbildungen: Grün zeigt das Verhalten des Systems ohne
Inhibition, Rot das Verhalten im Fall gleicher charakteristischer Zeiten für Inhibition
3.2. ANALYTIK
29
Abbildung 3.5: Lösungen von Gleichung (3.6) für die Heaviside-Funktion multipliziert mit der Schwingung [ 1 − cos(ωt) ]. Aufgetragen ist die relative Änderung der
Feuerrate in willkürlichen Einheiten über der Zeit in Millisekunden. Der Verlauf der
Kurven ist, von der sinusförmigen Amplitudenmodulation abgesehen, vergleichbar
mit Abbildung 3.3: nach Einsetzen des Reintons fällt die relative Feuerrate unter die
Spontanrate, rund 1 ms später erreicht sie wieder positive Werte, steigt auf ein Maximum und sinkt dann auf einen Gleichgewichtswert. Wie für eine Heaviside-Funktion
wird die Wahrnehmung kurz nach Beginn des Signals gestört, das Verhalten des
Modells deckt sich auch hier mit den experimentellen Daten. Zu beachten ist, dass
die Amplitude der Schwingung in allen drei Kurven gleich ist, in der Verschaltung
bleibt die Phaseninformation des Tons also vollständig erhalten. Die Parameter sind
mit Abbildung 3.3 identisch, die Frequenz ω des Reintons betrg̈t 440 Hz.
und Exzitation und Blau schließlich den Fall einer längeren charakteristischen Zeit
der Inhibition.
Nicht überraschend ist, dass alle drei Kurven mit 440 Hz moduliert sind, der Frequenz des verwendeten Tones. Ein wichtiger Punkt ist, dass die Amplitude der
Schwingungen konstant bleibt, die Gesamtaktivität hingegen durch die Inhibition
deutlich verringert wird. Das entscheidende Merkmal des Signals, die Phaseninformation, wird durch den vorgeschlagenen Mechanismus der Unterdrückung also nicht
manipuliert.
Von der sinusförmige Amplitudenmodulation abgesehen wird der qualitative Ver-
30
lauf der Änderung der Feuerrate für einen einsetzenden Reinton bereits durch eine
Heaviside-Funktion sehr gut beschrieben. Ganz wie in Abbildung 3.3 führt eine reine
Exzitation zu einer wachsenden Feuerrate, die rund 4 ms nach Beginn des Signals ihr
Maximum erreicht. Wird die Inhibition zugeschaltet, fällt die Feuerrate nach dem
Greifen der Inhibition zunächst scharf ab und steigt dann auf ein Maximum, bevor
sie den Grenzwert für große Zeiten erreicht. Genau wie zuvor ist das Maximum für
eine langsamere Inhibition besser ausgeprägt.
Zwei kleine, aber wesentliche Unterschiede zu Abbildung 3.3 lassen sich jedoch feststellen.
Erstens ist der kurze Anstieg der Aktivität vor Einsetzen der Inhibition nicht mehr
zu erkennen, der Beginn des Signals kann also nicht wahrgenommen werden. Ein derartiges Verhalten ist allerdings nicht realistisch: ein Neuron im auditorischen Nerv
löst Spikes im anteroventralen und im dorsalen Teil des Nucleus Cochlearis gleichzeitig aus, daher kann der erste Spike eines anhaltenden Tones niemals unterdrückt
werden. Es handelt sich um eine Folge der fehlenden Schwelle unseres Neuronmodells in Verbindung mit dem unnatürlich langsamen Einsetzen der Schwingung. Hier
stossen wir offensichtlich an die Grenzen der Modellierung.
Viel wesentlicher ist allerdings der zweite Unterschied: Betrachten wir den Bereich,
in dem die relative Feuerrate negativ wird, so fällt uns auf, dass im Gegensatz zu
vorher die blaue Kurve ihr Minimum schneller erreicht als die rote und beide Kurven
fast gleichzeitig den Nullwert durchlaufen. Die charakteristische Zeit der Inhibition
beeinflusst also nicht mehr die zeitliche Ausdehnung der Unterdrückung, sondern nur
noch ihre Stärke. Der zuvor beobachtete Effekt einer variablen Dauer der negativen
relativen Feuerrate kann mit dem abrupten Einsetzen des Signals, der Unstetigkeit
der Heaviside-Funktion im Nullpunkt, erklärt werden. Mit größeren charakteristischen Zeiten der Inhibition hat die Unstetigkeit auch länger inhibitorischen Einfluss
auf die Feuerrate.
Ein einsetzender Reinton führt also in dem Modell zunächst zu einem zeitlich klar
umrissenen Absinken der Feuerrate bei Beginn des Tones. Dann stellt sich eine von
der Stärke der Inhibition abhängige Gleichgewichtsaktivität ein. Höchst bemerkenswert ist, dass die Amplitude der Schwingung nicht von der Inhibition beeinflusst
wird.
3.2.3
Fazit
Diskutiert wurden die Lösungen für die analytischen Äquivalente zu einem Klick
und einem einsetzenden Reinton. Zusammenfassend kann man sagen, dass sich die
3.3. NUMERIK
31
Ergebnisse in beiden Fällen gut mit den psychophysikalischen Experimenten decken.
Klicks unterdrücken nachfolgende Klicks und bei einem einsetzenden Reinton ist die
Wahrnehmung kurz nach seinem Beginn gestört. Da die für den Ton charakteristischen Schwingungen nicht beeinträchtigt werden, ist seine Wahrnehmung außerhalb
der kurzen Zeit nach dem Einsetzen des Tons nicht gestört.
Interessanten Einfluss auf das Verhalten des Modells hat eine wachsende charakteristische Zeit der Inhibition. Sowohl für Klicks als auch für einen einsetzenden Reinton
nimmt die Stärke der Unterdrückung mit der charakteristischen Zeit der Inhibition zu. Im Fall von Klicks steigt mit wachsender charakteristischer Zeit auch die
Verzögerung der Unterdrückung, für Reintöne hat die charakteristische Zeit der Inhibition hingegen fast keinen Einfluss auf Zeitpunkt und Dauer der Unterdrückung.
Wie nah die Ergebnisse am Verhalten des biologischen Systems sind, ist schwer einzuschätzen. Gerade zum Zeitpunkt des Einsetzens des Signals spielt die, im PoissonModell vernachlässigte, Schwelle eine wichtige Rolle. So ist es vom Poisson-Neuron
zur real existierenden Zelle unter Umständen noch ein großer Schritt. Da die bisherigen Ergebnisse jedoch sehr ermutigend sind, soll die vorgeschlagene Verschaltung
im nächsten Abschnitt unter Zuhilfenahme eines anderen, näher an der Realität liegenden Neuronmodells untersucht werden. Für das neue Modell ist eine analytische
Lösung nicht mehr möglich, weshalb die Berechnungen numerisch mittels Computersimulationen durchgeführt werden.
3.3
Numerik
Wie wir im vorherigen Abschnitt gesehen haben, stehen die Ergebnisse der analytischen Betrachtungen in gutem Einklang mit den psychophysikalischen Experimenten. Allerdings sind auch Schwächen des Poisson-Neurons zu Tage getreten.
Numerische Berechnungen können uns im Vergleich zur analytischen Lösung im
Wesentlichen zwei Vorteile bieten.
Ein Vorteil ist, dass die Aussagen der Rechnungen nicht nur Wahrscheinlichkeiten und Raten, sondern real existierende Spikes und konkrete zeitliche Abfolgen von
Spikes betreffen. Das ermöglicht es, den Einfluss der genauen zeitlichen Abstimmung
auf die Eigenschaften der neuronalen Verschaltung im Detail nachzuvollziehen. Ein
weiterer Vorteil ist die realistischere Darstellung der Neurone und die daraus resultierende bessere Vergleichbarkeit mit der Wirklichkeit. In unseren Simulationen
werden alle Neurone mit einem angepassten Spike-Response-Modell (SRM) [11] beschrieben.
Charakteristisch für das SRM ist, dass Spikes mit einer Deltafunktion beschrieben
32
werden und dass absolute und relative Refraktärzeiten explizit berücksichtigt werden. Für das Zellpotential vi (t) einer mit den Zellen j verbundenen Zelle i gilt im
SRM:
vi (t) =
X
η(t − tfi ) +
f
X
Jij (t − tfj − ∆axon
).
ij
(3.16)
j,f
Die Summe über f ist eine Summe über die Feuerzeiten tf der beteiligten Neurone,
also der Neurone i und seiner ”Nachbarn” j. Die Funktion η(t) beschreibt das Refraktärverhalten der Zellen: in der absoluten Refraktärzeit (t < τabs ) mit dem Wert
–∞, in der relativen Refraktärzeit (t ≥ τabs ) mit einem endlichen negativen Term. Jij
steht für die Kopplungsstärke von Neuron j zu Neuron i, die Alphafunktion (t) wie
im analytischen Teil für die postsynaptische Antwort auf einen Spike. Die axonale
Verzögerung ∆axon
von Neuron j zu Neuron i kommt durch die in realen Systemen
ij
auftretende synaptische Verzögerung ∆syn und die Laufzeit der Spikes entlang der
Axone von Neuron j zu Neuron i zustande. Überschreitet das Potential vi (t) eine
bestimmte Schwelle ϑ, wird in Neuron i ein Spike ausgelöst.
In den Simulationen werden, wie bereits in Abschnitt 3.2, exzitatorische (EPSP)
und inhibitorische (IPSP) postsynaptische Potentiale als analog angenommen. Sie
werden einheitlich als Alphafunktion beschrieben, mit der Zeitkonstante τexzit. für
EPSP und τinhib. für IPSP. Die Membranzeitkonstante τm bestimmt den exponentiellen Rückfall des Zellpotentials auf das Ruhepotential, ist also vor allem in der
relativen Refraktärzeit von Bedeutung.
Alle Berechnungen werden mit zwei verschiedenen Parametersätzen durchgeführt.
Einmal wurden Amplitude, Form, Dauer und zeitliche Koordination der Potentiale
den einzelnen Ergebnissen von Wickesberg und Oertel angepasst. Dieser Parametersatz ist durch eine Membranrelaxationszeit von τm = 0.3 ms charakterisiert. Da das
eine vergleichsweise kurze Membranrelaxationszeit ist, wurde sie für einen weiteren
Satz von Parametern auf τm = 1 ms gesetzt, um die Robustheit des Mechanismus zu
untersuchen. In der folgenden Tabelle sind die Parameter für die beiden Membranrelaxationszeiten zusammengefasst:
τm
τe
τi
τabs
∆syn
Jexzit.
ϑ
0.3 ms
0.5 ms
4 ms
0.25 ms
0.2 ms
1.2
0.3
1 ms
0.5 ms
4 ms
0.25 ms
0.2 ms
1.2
0.8
3.3. NUMERIK
33
Beide Parametersätze unterscheiden sich also zunächst nur in den Membranrelaxationszeiten τm und in der Schwelle ϑ. Der Schwellwert ist normiert, d.h. eine Schwelle
von 0.3 bedeutet, dass bei 30 % des maximalen Wertes, den ein EPSP nach einem
Spike erreicht, ein Spike ausgelöst wird.
Freie Parameter sind die Stärke der Inhibition, Jinhib. , und die Streuung der Inhibition in benachbarte Frequenzen, ESB (Echo Suppression Branching). Keine
Streuung findet bei ESB = 1 statt, für ESB = n werden zusätzlich die benachbarten
n−1 Nervenfasern inhibiert. Die Inhibition klingt exponentiell mit dem Abstand ab.
Die Abklingrate wird so gewählt, dass die Stärke der Inhibition im weitestentfernten
noch inhibierten Neuron weniger als 2 % des Wertes im direkt innervierten Neurons
beträgt.
Wenn nicht anders erwähnt, liegt den gezeigten Ergebnissen bei minimaler Streuung
der Inhibition in benachbarte Frequenzen (ESB = 5) eine mittlere Stärke der Inhibition zu Grunde (Jinhib. = −1.25 für τm = 0.3 ms und Jinhib. = −3.0 für τm = 1 ms).
Zur Modellierung der Peripherie wird das etablierte C++ Paket LUTEar der Universität von Essex verwendet. LUTEar liefert zu .wav-Dateien die zugehörigen Spikezeiten in den einzelnen Fasern des auditorischen Nervs. Diese Spikezeiten bilden
den Input des untersuchten Modells. Als Input werden die Spikezeiten von Klicks,
Klickpaaren, Reintönen und schließlich Rauschen verwendet.
3.3.1
Verhalten für Klicks und Klickpaare
In Anlehnung an die psychophysikalischen Experimente von Harris wird zunächst
das Verhalten des Modells für Klicks und Klickpaare ergründet. Wie in den Versuchen von Harris haben die Klicks eine Länge von 0.3 ms. In Abbildung 3.6 sehen
wir die Ergebnisse eines Testlaufs mit einem einzelnen Klick als Signal: links die
Aktivität der Neurone im auditorischen Nerv, in der Mitte die Ausgabe des Modells
für τm = 0.3 ms und rechts für τm = 1 ms.
In allen drei Fällen ist die Zahl der Spikes allgemein groß, das Rauschen im auditorischen Nerv also sehr ausgeprägt. Trotzdem ist das Signal, also der Klick, immer
deutlich zu erkennen. Ebenfalls zu erkennen ist allerdings eine Art von Schwänzen,
die die Klicks nach sich ziehen, eine Aktivität, die vor allem in den Kanälen tiefer
Frequenzen ausgeprägt ist. Es handelt sich hierbei um Nachschwingungen der Basilarmembran. Zu bemerken ist auch, dass die Spikes in tiefen Frequenzen mit leichter
Verzögerung ausgelöst werden. Das lässt sich auf die Geometrie der Basilarmembran
zurückführen: die bekannte Wanderwelle breitet sich entlang der Membran von den
Bereichen mit hoher Eigenfrequenz zu denen mit tiefer Eigenfrequenz hin aus. Dabei
34
Abbildung 3.6: Spikeaktivität für einzelne Klicks. Aufgetragen sind die Frequenzkanäle über der Zeit; ein Punkt markiert einen Spike im jeweiligen Kanal. Zum
Vergleich steht ganz rechts die charakteristische Frequenz der Kanäle. Links sieht
man die Aktivität im auditorischen Nerv, in der Mitte im Nucleus Cochlearis mit
τm = 0.3 ms und recht im Nucleus Cochlearis mit τm = 1 ms zum Vergleich. In allen drei Fällen ist der Klick, die Stimulation aller Frequenzkanäle bei t = 20 ms,
klar zu erkennen. Im linken Bild zieht der Klick deutlich ein schwanzartiges Muster in der Aktivitätsverteilung nach sich. Die rechten beiden Bilder zeigen, dass
diese Schwänze im Modell für verschiedene Parameter deutlich unterdrückt werden.
Außerdem resultieren die Klicks hier in einem schmaleren Signal; nach den Klicks
ist ein deutliches Sinken der Spontanaktivität zu beobachten. Nachfolgende Reize
werden also erwartungsgemäß unterdrückt.
nimmt die Geschwindigkeit der Wanderwelle laufend ab. Als Folge werden in Abbildung 3.6 die Spikes in Bereichen mit tiefer Eigenfrequenz sichtbar später ausgelöst
als in Bereichen mit hoher Eigenfrequenz.
Vergleicht man die drei Graphen untereinander, fällt auf, dass die Dichte der Aktivität im auditorischen Nerv allgemein höher und die Schwänze nach den Klicks
ausgeprägter sind als im Nucleus Cochlearis. Insbesondere fällt auf, dass in dem
Zeitraum nach den Klicks besonders wenige Spikes zu beobachten sind. Erwartungsgemäß scheinen also frühere Spikes später kommende Reize zu unterdrücken. Bemerkenswert ist, dass es zwischen den Aktivitäten im Nucleus Cochlearis für die beiden verschiedenen Parametersätze keine mit bloßem Auge erkennbaren Unterschiede
3.3. NUMERIK
35
gibt. Diese Ununterscheidbarkeit gilt nicht nur für einen einzelnen Klick, sondern
uneingeschränkt auch für Klickpaare und, mit einer später diskutierten Ausnahme,
für Reintöne. Daher wird im Folgenden nur noch der Parametersatz mit τm = 0.3 ms
diskutiert; die Ergebnisse für τm = 1 ms sind identisch.
Für den Vergleich mit den psychophysikalischen Experimenten interessiert uns natürlich weniger die Reaktion des Systems auf einen einzelnen Klick als vielmehr das
Verhalten für Klickpaare mit verschiedenen Abständen der Klicks. Abbildungen 3.7
und 3.8 zeigen die entsprechenden Ergebnisse. Von links nach rechts sehen wir in
beiden Abbildungen zunächst einen einzelnen Klick, dann 8 Klickpaare mit Klickabständen von je 0.5, 1, 2, 3, 4, 6, 8 und 10 ms.
Abbildung 3.7: Spikeaktivität für eine Klickserie im auditorischen Nerv. Dargestellt ist die Aktivität für einen einzelnen Klick gefolgt von 8 Klickpaaren, die je
einen Klickabstand von 0.5, 1, 2, 3, 4, 6, 8 und 10 ms haben. Gut zu erkennen sind
die in immer größeren Abständen aufeinander folgenden einzelnen Klicks sowie die
Schwänze, die die Klicks nach sich ziehen. Die Berechnung erfolgte mit LUTEar.
Abbildung 3.7 zeigt die mit größerem Klickabstand steigende zeitliche Ausdehnung
der Aktivität im auditorischen Nerv. Von einem einzelnen Klick bis zu Klickpaaren
mit 0.5 und 1 ms Klickabstand werden die Bänder breiter, bis wir ab einem Abstand von 2 ms und mehr innerhalb der Klickpaare die einzelnen Reize unterscheiden
können. Deutlich ist auch hier wieder das Nachschwingen der Basilarmembran zu
erkennen.
36
Abbildung 3.8: Spikeaktivität für eine Klickserie analog zu Abbildung 3.7 im
Nucleus Cochlearis. Im Vergleich zu der Aktivität im auditorischen Nerv sind die
Schwänze fast nicht mehr zu erkennen und die ersten drei Klickpaare nach dem
einzelnen Klick, die Paare mit dem Klickabstand von 0.5, 1 und 2 ms sind nicht zu
unterscheiden. Insbesondere bei dem Klickpaar mit einem Klickabstand von 2 ms
(bei t = 15 ms) ist der zweite Klick, in deutlichem Gegensatz zu Abbildung 3.7, nicht
auszumachen. Für größere Klickabstände kann man die einzelnen Klicks wieder deutlich erkennen. Das Verhalten des Modells deckt sich genau mit den Ergebnissen von
Harris, nach denen der zweite Klick bei einem Interklickintervall von 2 ms nicht
wahrgenommen wird. τm = 0.3 ms, ESB = 5 und Jinhib. = −1.25.
In Abbildung 3.8 sieht man, dass, wie bereits im Testlauf festgestellt, die Gesamtaktivität im Nucleus Cochlearis geringer ist als noch im auditorischen Nerv. Auch die
Nachschwingungen der Basilarmembran sind, analog zum Testlauf, weitgehend verschwunden.
Betrachten wir die zeitliche Ausdehnung der Aktivität, stellen wir jedoch interessante Abweichungen von Abbildung 3.7 fest: Zwar ist die Aktivität für den einzelnen
Klick ebenfalls schwächer als für die Klickpaare, innerhalb der ersten drei Klickpaare
(Abstand 0.5, 1 und 2 ms) jedoch verändert sich die Breite der Bänder nicht. Erst
bei einem Klickabstand von 3 ms nimmt die Breite deutlich zu und wir können einen
zweiten Klick erahnen, eine Ahnung, die bei den darauffolgenden Klickpaaren zur
Gewissheit wird.
3.3. NUMERIK
37
Das Verhalten des Modells deckt sich also genau mit den Ergebnissen von Harris.
Übersichtlicher lassen sich die Ergebnisse darstellen, indem man die Spikes aller
Kanäle in einem Zeitintervall dt aufsummiert und gegen die Zeit anträgt wie in
Abbildung 3.9. Gut erkennt man die abgesenkte Gesamtaktivität und den starken
Rückgang der Aktivität direkt nach einem Klick. Bei den besonders interessanten
Klickabständen von 0.5, 1, 2 und 3 ms kann man hingegen nur wenig erkennen. Das
liegt an der Wahl des Zeitintervalls dt. Um den Effekt des vergleichsweise ausgeprägten Rauschens auszumitteln, muss für eine klare Darstellung das Zeitintervall
dt mindestens 1.9 ms betragen. Damit wird auch die Feinstruktur nivelliert.
Abbildung 3.9: Gesamtaktivität für eine Klickserie im auditorischen Nerv und im
Nucleus Cochlearis. Aufgetragen ist die Summe der Spikes in allen Kanälen in einem
Zeitinterval dt = 1.9 ms über der Zeit. Für kurze Klickabstände sind die einzelnen
Klicks nicht zu identifizieren, gut zu erkennen ist jedoch die allgemein verringerte
Aktivität sowie der besonders starke Rückgang der Aktivität unmittelbar nach einem
Reiz. τm = 0.3 ms, ESB = 5 und Jinhib. = −1.25.
Der Vorteil der letzten Darstellungsform ist die Übersichtlichkeit. Das macht sie
geeignet, um den Einfluss der beiden freien Parameter, der Stärke der Inhibition
und der Streuung der Inhibition in benachbarte Frequenzen, auf das Verhalten des
Modells zu verdeutlichen.
In Abbildung 3.10 ist der Einfluss der Stärke der Inhibition auf das Verhalten des
38
Modells erkennbar. Neben der Aktivität im auditorischen Nerv ist die Aktivität im
Nucleus Cochlearis dargestellt, einmal mit schwächerer (Jinhib. = −0.75) und einmal mit stärkerer (Jinhib. = −1.75) Inhibition. Mit zunehmender Inhibition sinkt die
Aktivität insgesamt und der von den Klicks ausgelöste Effekt der Unterdrückung
nachfolgender Spikes wird deutlicher.
Abbildung 3.10: Einfluss der Stärke der Inhibition auf die Gesamtaktivität für
eine Klickserie. Aufgetragen ist die Aktivität im auditorischen Nerv und im Nucleus
Cochlearis für schwächere (Jinhib. = −0.75) und für stärkere (Jinhib. = −1.75) Inhibition. Je stärker die Inhibition, desto deutlicher wird das Absinken der Gesamtaktivität und der Rückgang der Spikezahl unmittelbar nach einem Reiz. τm = 0.3 ms
und ESB = 5.
Der zweite freie Parameter ist die Streuung der Inhibition in benachbarte Frequenzen. Eine große Streuung heißt, dass die Aktivität in einer Faser des auditorischen
Nervs nicht nur die nachfolgenden Reize in der gleichen, sondern auch in einer Zahl
benachbarter Fasern unterdrückt. Je größer also die Streuung der Inhibition, desto geringer ist die Frequenzspezifizität der Echounterdrückung. Von einer Echounterdrückung erwarten wir jedoch, wie zu Anfang dieser Arbeit dargelegt, dass sie
frequenzspezifisch ist. Vor diesem Hintergrund stellt sich die Frage, inwiefern die
Streuung der Inhibition hier von Interesse ist.
Eine große Streuung entspricht einem großen afferenten Feld, also einem großen Bereich im dorsalen Teil des Nucleus Cochlearis, der ein Neuron des anteroventralen
3.3. NUMERIK
39
Nucleus Cochlearis inhibiert. In den Experimenten von Wickesberg und Oertel sind
die beobachteten afferenten Felder von nicht vernachlässigbarer Größe. Aus diesem
Grund ist eine Untersuchung des Einflusses inhibitorischer Streuung auf das Verhalten des Modells naheliegend.
Abbildung 3.11: Einfluss der Streuung der Inhibition auf die Gesamtaktivität für
eine Klickserie. Gezeigt ist die Aktivität im auditorischen Nerv und im Nucleus Cochlearis für Inhibition großer Streuung. Noch deutlicher als in Abbildung 3.9 und 3.10
sinkt hier die Zahl der Spikes unmittelbar nach einem Klick oder Klickpaar. Im
Gegensatz zu den vorhergehenden Abbildungen bleibt die spontane Aktivität, also
die Spikezahl vor oder lange nach den Klicks, praktisch unverändert. τm = 0.3 ms,
ESB = 41 und Jinhib. = −0.12.
Der Einfluss der Streuung der Inhibition auf das Verhalten des Modells ist aus Abbildung 3.11 ersichtlich. In Abwesenheit von Klicks wird die Gesamtaktivität kaum
verringert, wohingegen die Unterdrückung von Spikes direkt nach den Klicks genauso stark ist wie in den oben diskutierten Fällen (vgl. Abb. 3.9). Dieses Verhalten
ist leicht zu verstehen: die Inhibition ist hier breiter (ESB = 41) und schwächer
(Jinhib. = −0.12) als zuvor (ESB = 5, Jinhib. = −1.25), weshalb ein Spike in einer Fiber des auditorischen Nervs nicht reicht, um nachkommende Spikes zu unterdrücken;
erst wenn viele Kanäle gleichzeitig aktiviert werden, wie bei einem Klick, wird die
Inhibition in einer Faser ausreichend stark, um einen Spike zu unterdrücken.
Insgesamt entspricht das Verhalten für Klicks unseren Vorstellungen: gemäß den
40
Ergebnissen von Harris werden Klicks in 2 ms Abstand von einem anderen Klick unterdrückt; Variationen in Stärke und Streuung der Unterdrückung beeinflussen das
Verhalten des Modells nachvollziehbar; für beide Membranzeitkonstanten werden
nicht unterscheidbare Ergebnisse erzielt. Auch mit den Ergebnissen der analytischen
Rechnungen stehen die numerischen Simulationen im Einklang. Im Fall von Klicks
sind die analytischen Vereinfachungen anscheinend nicht kritisch. Spannend ist die
Frage, inwieweit das für einen einsetzenden Reinton ebenfalls gilt: Hier stießen wir
im letzten Kapitel an die Grenzen unserer Modellierung.
Daher soll im nächsten Abschnitt untersucht werden, wie das Modell mit SRMNeuronen auf einen anhaltenden Reinton reagiert.
3.3.2
Verhalten für Reintöne
Im Vergleich zu den Klicks des letzen Abschnitts erwarten wir für Reintöne deutlich
komplexere Muster der Neuronenaktivität. Das wird von Abbildung 3.12 bestätigt.
Dargestellt ist die Aktivität für einen einsetzenden Reinton von 440 Hz im auditorischen Nerv. Deutlich zu sehen ist das Anschalten bei 0.44 s und, nach einer kurzen Einschwingphase, das Phaselocking. In Abbildung 3.13, der Aktivität für den
gleichen Ton im Nucleus Cochlearis, ist insbesondere das Phaselocking wesentlich
schwerer zu erkennen. Bedenkt man, dass die Abbildungen einem Ton von 100 dB(A)
entsprechen, scheint fraglich, ob schwächere Signale überhaupt noch eine verwertbare Aktivität im Nucleus Cochlearis hervorrufen.
In der in Abbildung 3.12 und 3.13 gewählten Form der Darstellung ist sehr mühsam,
Details zu erkennen. Damit ist sie für eine genauere Analyse ungeeignet; es bedarf
einer Aufbereitung der Rohdaten. Da anzunehmen ist, dass das Phaselocking entscheidend ist für die Erkennung und Verarbeitung von Tönen, summieren wir über
alle Spikes, die einen identischen zeitlichen Abstand voneinander haben. Wir ordnen
also die Spikes nach Interspikeintervallen (s. Abb. 3.14).
Betrachten wir zunächst die Aktivität im auditorischen Nerv, also die grüne Kurve. Das Phaselocking tritt hier klar zu Tage: bis zu dem verhältnismäßig großen
Spikeabstand von 40 ms liegt eine Oszillation der Aktivität mit 440 Hz vor.
Das Rauschen liefert die abklingende Hintergrundaktivität.
Die rote Kurve beschreibt die Aktivität im Nucleus Cochlearis. Für Spikeabstände
von ca. 8 ms und weniger ist die Spikezahl im Vergleich zur grünen Kurve drastisch
reduziert (bei 2 ms um den Faktor 25!). In diesem Bereich ist das Rauschen praktisch
vollständig unterdrückt, das Phaselocking nur rudimentär zu erkennen. Spikes mit
einem Interspikeintervall unterhalb einer bestimmten Grenze, hier ca. 8 ms, werden
3.3. NUMERIK
41
Abbildung 3.12: Spikeaktivität für einen Reinton von 440 Hz von 100 dB(A) im auditorischen Nerv. Leicht zu erkennen ist der Beginn des Tones bei t = 0.44 s. Ähnlich
einem Klick werden durch das abrupte Einschalten die bekannten Schwänze erzeugt.
Nach einer Einschwingphase stellt sich in den Frequenzen um 440 Hz Phaselocking
ein. Die Berechnung der Spikezeiten erfolgte mit LUTEar.
also unterdrückt.
Interessant sind aber nicht nur die Unterschiede zwischen den Kurven sondern auch
ihre Gemeinsamkeit: Ab Spikeabständen von rund 17 ms gibt es zwischen den Kurven fast keinen Unterschied mehr. Da Phaselocking bis zu einem Spikeabstand von
40 ms vorliegt, wird ein großer Teil der Information, die Information der niederen
harmonischen Schwingungen des Reintons, von dem Modell nicht verändert.
Hier liegt also eine Diskrepanz zwischen numerischer und analytischer Lösung, in
welcher die Phaseninformation nicht verändert wird, vor.
Wird die Stärke der Inhibition verändert, verschiebt sich die Grenze der Interspikeintervalle, unterhalb derer Spikes unterdrückt werden. Schwächt man die Inhibition
ab, werden nur noch Spikes mit geringerem Abstand unterdrückt, verstärkt man sie,
verschwinden auch Spikes mit größeren Interspikeintervallen.
In Abbildung 3.15 sehen wir, dass es an dieser Stelle - zum ersten und einzigen Mal einen signifikanten Unterschied im Verhalten des Modells für die beiden Parametersätze mit τm = 0.3 ms und τm = 1 ms gibt. Im Fall schwacher Inhibition verschiebt
42
Abbildung 3.13: Spikeaktivität für einen Reinton von 440 Hz von 100 dB(A) im
Nucleus Cochlearis. Analog zu Abbildung 3.12 kann man Beginn des Signals, Einschwingphase und Phaselocking erkennen. Im Vergleich zu Abbildung 3.12 sind die
Merkmale deutlich schwieriger auszumachen. Die Form der Darstellung ist nicht
optimal, in Abbildung 3.14 sind die gleichen Daten wesentlich übersichtlicher dargestellt. τm = 0.3 ms, ESB = 5 und Jinhib. = −1.25.
sich für den Parametersatz mit τm = 1 ms die Grenze wie erwartet in Richtung Ursprung; für τm = 0.3 ms taucht hier bei einem Spikeabstand von etwa 1 ms ein Peak
auf. Dieses Zwischenhoch in der Aktivität lässt sich durch die kurze Membranrelaxationszeit erklären und passt auch zu der von Harris beschriebenen Wahrnehmung
der Klicks in einem Abstand von 0.5 ms und 1 ms. Die Bedeutung des Peaks bleibt
jedoch unklar, solange nicht endgültig festgestellt wird, welche Relaxationzeit im
Nucleus Cochlearis relevant ist.
Wenn eine Streuung der Inhibition in benachbarte Frequenzen stattfindet, ändert
sich das Verhalten des Modells deutlich (s. Abb. 3.16).
Im vorigen Abschnitt hatten wir festgestellt, dass die mittlere Gesamtaktivität bei
großer Streuung der Inhibition in Abwesenheit von Klicks kaum verändert wird. In
Abbildung 3.16 sehen wir, dass dies nicht nur in Abwesenheit von Klicks sondern
auch in Anwesenheit eines Reintons gilt: zwar ist die Hintergrundaktivität und auch
die vom Signal verursachte Aktivität im Vergleich zum auditorischen Nerv abge-
3.3. NUMERIK
43
Abbildung 3.14: Spikeaktivität für einen Reinton von 440 Hz von 100 dB(A) im
auditorischen Nerv und im Nucleus Cochlearis. Aufgetragen ist die Absolutzahl der
Spikes über dem zeitlichen Abstand von ihrem Vorspike. Klar tritt sowohl im auditorischen Nerv als auch im Nucleus Cochlearis das Phaselocking zu Tage. Das
Rauschen liefert besonders im auditorischen Nerv eine ausgeprägte Hintergrundaktivität. Im Nucleus Cochlearis werden Spikes mit kurzen Interspikeintervallen stark
unterdrückt. τm = 0.3 ms, ESB = 5 und Jinhib. = −1.25.
senkt, ein qualitativer Unterschied der beiden Kurven ist jedoch nicht zu erkennen.
Ein Reinton wird von dem Mechanismus praktisch nicht verändert, wenn die Inhibition im Nucleus Cochlearis breit über die Frequenzen gestreut ist. Der Unterschied
zwischen numerischer und analytischer Lösung verschwindet also im Falle breiter
Streuung der Inhibition.
Insgesamt ist das Verhalten des Modells für anhaltende Reintöne in den numerischen Simulationen zufriedenstellend: Zwar ist ein deutlicher Unterschied zur analytischen Lösung vorhanden, zumindest im Fall einer breit gestreuten Inhibition kann
allerdings von übereinstimmenden Ergebnissen der beiden Lösungswege gesprochen
werden. Festzuhalten ist auch, dass in jedem Fall, also auch bei wenig ausgeprägter
Streuung der Inhibition, das heisst, einem von der Analytik verschiedenen Verhalten, ein großer Teil der Phaseninformation erhalten bleibt. Genug, um die Frequenz
des Signals eindeutig rekonstruieren zu können.
44
Abbildung 3.15: Spikeaktivität für einen Reinton im Nucleus Cochlearis für den
Fall schwacher Inhibition. Im Vergleich zu Abbildung 3.14 ist die Aktivität im auditorischen Nerv unverändert, die Unterdrückung von Spikes mit geringen Interspikeintervallen im Nucleus Cochlearis jedoch weniger ausgeprägt. Für den Parametersatz
mit einer Membranrelaxationszeit von 0.3 ms existiert ein deutlicher Peak der Aktivität bei ca. 0.5 ms. Der Peak passt zu den psychophysikalischen Experimenten von
Harris, nach denen ein Klick mit 0.5 ms Abstand zum vorhergehenden Klick nicht
unterdrückt wird. τm = 0.3 ms und Jinhib. = −0.75 bzw. τm = 1 ms und Jinhib. = −2.0.
Die in diesem Abschnitt aufgeführten Abbildungen zeigen das Verhalten des Modells für einen Reinton von 440 Hz. Für einen Reinton von 1000 Hz wurden analoge
Berechnungen mit vergleichbaren Resultaten durchgeführt.
Die Lautstärke wurde für alle gezeigten Ergebnisse in LUTEar auf 100 dB(A) eingestellt. Für einen Reinton ist das sehr viel. Das Modell liefert für 70 und 50 dB(A)
jedoch keine anderen Effekte, sie sind lediglich schwerer zu erkennen. Speziell bei
50 dB(A) sind sie für ein ungeschultes Auge nicht zu sehen. Das bedeutet jedoch
nicht, dass sie im auditorischen System nicht wahrgenommen werden. Vielmehr muss
das auditorische System in Bezug auf seine nativen Daten zu mindestens der gleichen Identifikationsleistung in der Lage sein wie ein geschultes Auge in Bezug auf
die vorliegenden Graphen.
3.3. NUMERIK
45
Abbildung 3.16: Spikeaktivität für einen Reinton im auditorischen Nerv und im
Nucleus Cochlearis für den Fall starker Streuung der Inhibition in benachbarte Frequenzen. Im Vergleich zu den Abbildungen 3.14 und 3.15 fällt auf, dass im Nucleus
Cochlearis die Spikes mit geringen Interspikeintervallen kaum unterdrückt werden.
Die Phaseninformation des Tones bleibt vollständig erhalten. τm = 0.3 ms, ESB = 41
und Jinhib. = −0.12.
3.3.3
Verhalten für Rauschen
Im letzten Abschnitt wurde unter anderem festgestellt, dass der vorgeschlagene Mechanismus das Rauschen bei kurzen Interspikeintervallen stark schwächt. Dem soll
hier mit einem Signal, das ausschliesslich aus weißem Rauschen besteht, nachgegangen werden. Um für diesen Fall aussagekräftige Graphen zu erhalten, ist eine
differenziertere Art der Auftragung als für Reintöne notwendig. Wieder tragen wir
die Spikezahl über den Interspikeintervallen auf, diesmal jedoch für jeden Kanal getrennt. Abbildung 3.17 ist ein derartiger Graph für einen Reinton von 440 Hz im
auditorischen Nerv. Die Analogie zu Abbildung 3.14 ist nicht zu übersehen.
Bei einem Blick auf Abbildung 3.18, dem gleichen Graphen für lautes Rauschen, wird
klar, weshalb die Auftrennung nach Kanälen nötig ist. Das Rauschen regt die Basilarmembran zu Eigenschwingungen an, die jedoch in der Summe unsichtbar sind, da die
Eigenfrequenzen für jeden Kanal unterschiedlich sind. Die Aktivitätsverteilung nach
dem Durchlaufen des Modells ist in Abbildung 3.19 zu sehen. Die Unterdrückung ist
46
Abbildung 3.17: Aktivitätsverteilung für einen Reinton von 440 Hz im auditorischen Nerv. Aufgetragen sind die Kanäle über den Interspikeintervallen, dunkle
Punkte stehen für viele, helle Punkte für wenige Spikes. Die Analogie zu den vorherigen Abbildungen ist unübersehbar. Die Kanäle um eine Frequenz von 440 Hz,
(Kanal 90) feuern kohärent, die Hintergrundaktivität stammt aus den restlichen
Kanälen. Die Berechnung erfolgte mit LUTEar.
sehr stark, allerdings werden nicht nur die Eigenschwingungen unterdrückt, sondern
allgemein alle Spikes mit geringem Interspikeintervall. Der Effekt ist also sehr unspezifisch. Im Falle einer breiten Streuung der Inhibition werden die Eigenschwingungen
ebenfalls reduziert, jedoch wesentlich subtiler (s. Abb. 3.20).
Dieser Effekt verschwindet in Simulationen mit leisem Rauschen, da die Basilarmembran vom Rauschen dann nicht mehr in Eigenschwingungen versetzt wird. Trotzdem
ist der Effekt von Interesse, weil er verdeutlicht, dass Eigenschwingungen der Basilarmembran von dem Mechanismus wirkungsvoll unterdrückt werden und noch
einmal klar wird, dass die Streuung der Inhibition einen wesentlichen Einfluss auf
das Verhalten des Modells ausübt.
3.3. NUMERIK
47
Abbildung 3.18: Aktivitätsverteilung für Rauschen von 100 dB(A) im auditorischen Nerv. In den einzelnen Kanälen (gut sichtbar im unteren Bereich, Kanal 0 200) feuern die Neurone kohärent mit der charakteristischen Frequenz des Neuronkanals. Es treten die von Klicks und Reinton bekannten Schwänze auf, die Basilarmembran wird durch das Rauschen in Eigenschwingungen versetzt. Die Berechnung
erfolgte mit LUTEar.
3.3.4
Fazit
In den numerischen Simulationen wurde das Verhalten des Modells für Klickpaare,
Reintöne und Rauschen untersucht.
Am klarsten sind die Ergebnisse für die Klickpaare, nicht zuletzt, weil die Daten
sehr einfach zu interpretieren sind: für beide Membranrelaxationszeiten als auch für
unterschiedlich starke Streuung der Inhibition deckt sich das Verhalten des Modells
mit den psychophysikalischen Experimenten. Der Mechanismus ist folglich robust,
über die Breite der vorliegenden Streuung im realen System läßt sich jedoch keine
Aussage treffen. Da wir von einer frequenzspezifischen Echounterdrückung ausgehen, favorisieren wir schwache oder keine Streuung der Inhibition in benachbarte
Frequenzen.
Für Reintöne stellen wir für geringe Streuung qualitative Unterschiede zwischen der
Aktivität im auditorischen Nerv und im Nucleus Cochlearis fest. Hier unterscheiden
sich numerische und analytische Lösung. Dieser Unterschied verschwindet bei einer
großen Streuung der Inhibition: hier wird das Signal im Nucleus Cochlearis kaum
48
Abbildung 3.19: Aktivitätsverteilung für Rauschen von 100 dB(A) im Nucleus
Cochlearis für den Fall geringer Streuung der Inhibition. Die analoge Abbildung für
einen Reinton ist Abbildung 3.14. Spikes mit kurzen Interspikeintervallen werden
unterdrückt. Als Folge sind auch die Eigenschwingungen der Basilarmembran nicht
mehr sichtbar. τm = 0.3 ms, ESB = 5 und Jinhib. = −1.25.
verändert.
Bei unnatürlich starkem Rauschen wird die Basilarmembran zu Eigenschwingungen angeregt. Diese werden sowohl im Fall schmaler als auch breiter Streuung unterdrückt, die effizientere und dadurch elegantere Unterdrückung findet jedoch bei
breiter Streuung der Inhibition statt.
Insgesamt sollten wir im jetzigen Stadium der Erkenntnisse unsere Gedanken weniger auf Echounterdrückung und ihre biologische Realisation fokussieren, als vielmehr
versuchen, analytische und numerische Lösung zusammenzuführen und damit den
Kern des Modells, seine Aufgabe im Gehör und auch mögliche Anwendungen, zu
erkennen.
3.3. NUMERIK
Abbildung 3.20: Aktivitätsverteilung für Rauschen von 100 dB(A) im Nucleus
Cochlearis für den Fall breiter Streuung der Inhibition. Die Eigenschwingungen der
Basilarmembran werden unterdrückt, allerdings weniger massiv und mit einer geringeren Auswirkung auf die Aktivität insgesamt als in Abbildung 3.19. Die Gesamtaktivität ist jedoch geringer als in Abbildung 3.18. τm = 0.3 ms, ESB = 41 und
Jinhib. = −0.12.
49
50
Kapitel 4
Interpretation und Anwendung
Interpretation der Ergebnisse und Aufgabe der Verschaltung
Die bisherigen Ausführungen hatten zum Ziel, Existenz, Ort und Eigenschaften der
monauralen Echounterdrückung zu ergründen. Im letzten Kapitel haben wir schließlich gesehen, dass das vorgeschlagene Verschaltung für beide verwendeten, vollkommen verschiedenen Neuronmodelle die psychophysikalischen Experimente sehr gut
bis gut widerspiegelt. In beiden Fällen ist der Mechanismus robust bezüglich Variationen der Parameter, sodass wir in Verbindung mit den von Wickesberg und
Oertel vorgestellten biologischen Hinweisen davon ausgehen können, dass eine derartige Unterdrückung im Nucleus Cochlearis real existiert.
Aus unserer Arbeit geht also die Existenz der Verschaltung hervor, unklar bleibt
jedoch ihre Aufgabe. Handelt es sich überhaupt um eine Echounterdrückung? Oder
vielleicht um eine Lautstärkeanpassung? Um eine Rauschunterdrückung, einen Mechanismus zur Unterdrückung der Eigenschwingungen der Basilarmembran?
Eigenschwingungen der Basilarmembran werden, wie in Abschnitt 3.3.1 und 3.3.3
gezeigt, in dem Modell tatsächlich unterdrückt. Erst wurden sie durch einen Klick,
dann durch lautes Rauschen erzeugt, in beiden Fällen durch die vorgeschlagene
Verschaltung aber drastisch reduziert. Die zur Anregung der Eigenschwingungen
durch Rauschen notwendige Lautstärke zeigt jedoch, dass Rauschunterdrückung sicher nicht der originäre Zweck der Verschaltung sein kann.
Denkbar wäre auch eine Regelung der Lautstärke. In den analytischen Rechnungen
und auch in den numerischen Simulationen mit breiter Streuung der Inhibition haben
wir gesehen, dass die durch einen einsetzenden Reinton hervorgerufene Aktivität
durch den Mechanismus insgesamt reduziert wird, die Information der Schwingung,
51
52
KAPITEL 4. INTERPRETATION UND ANWENDUNG
also das Charakteristikum des Tons, hingegen nicht beeinflusst wird. Reguliert wird
also einzig die Lautstärke des Signals. Eine Lautstärkeregulierung möglichst früh
im auditorischen System, also zum Beispiel im Nucleus Cochlearis, macht Sinn, da
das Gehör mit Sicherheit auf die Wahrnehmung und Verarbeitung leiser Signale
optimiert ist. Außerdem ist bekannt, dass die Aktivität im Gehirn im Allgemeinen
eher gering ist ( sparse coding“).
”
Eine aktive Lautstärkeregulation findet zwar schon im Mittelohr statt, die Zeitskala
des akustischen Reflexes, der Versteifung der Hörknöchelchen, bewegt sich allerdings im Bereich von 2 - 10 ms. Die damit entstehende Lücke zwischen dem Beginn
des Signals und dem Einsetzen des akustischen Reflexes würde genau durch die vorgeschlagene neuronale Unterdrückung geschlossen. Zusätzlich wird der dorsale Teil
des Nucleus Cochlearis von Nerven aus höheren Zentren konnektiert, was theoretisch
eine Steuerung der Lautstärkeanpassung durch höhere Zentren, wie sie auch für den
akustischen Reflex vorliegt, ermöglicht. Ist eine solche Funktion des Mechanismus
gegeben, spräche das klar für eine breite Streuung der Inhibition.
Gehen wir von einem Mechanismus der Echounterdrückung aus, wäre hingegen eine wenig ausgeprägte Streuung der Inhibition naheliegend. Echos sind, wie bereits
mehrmals erwähnt, stets frequenzspezifisch; plausibel für eine Echounterdrückung
wäre also ebenfalls Frequenzspezifizität - falls sie ausschliesslich diese eine Funktion
haben soll. Es ist aber nicht klar, ob eine Echounterdrückung frequenzspezifisch sein
muss.
So ist bekannt, dass Hörereignisse, die zum gleichen Zeitpunkt einsetzen, miteinander assoziiert werden. In einem Orchester beispielsweise spielen die verschiedenen Instrumente mit einem kleinen, vom Zuhörer nicht wahrgenommenen Versatz schlicht, weil die Musiker sonst die Stimme ihres eigenen Instrumentes nicht mehr
identifizieren können. Wenn das auditorische System Signale, die genau zeitgleich
einsetzen, grundsätzlich einer einzigen Quelle zuordnet, ist als Konsequenz die Unterdrückung von Echos nicht zwingenderweise frequenzspezifisch. Also ist es auch
nicht nötig, im Modell an frequenzspezifischer Inhibition festzuhalten.
Für die am leichtesten interpretierbaren Ergebnisse, das Verhalten für Klicks, macht
es in den Simulationen keinen Unterschied, ob die Unterdrückung frequenzspezifisch
oder über eine breite Streuung erfolgt. Für einen Reinton wird im Falle einer breiten
Streuung die Aktivität insgesamt reduziert, die Phaseninformation des Tons bleibt
jedoch vollständig erhalten. Für eine frequenzspezifische Inhibition gibt es hingegen
keinen expliziten Grund.
Wir kommen daher zu der Schlussfolgerung, dass der in dieser Arbeit beschriebene
Mechanismus neuronaler Inhibition auf biologischer Ebene über eine breite Streuung
53
der Inhibition in Nachbarkanäle realisiert ist. Die erzielte Wirkung ist die einer
monauralen Unterdrückung schneller Echos sowie eine Reduzierung der effektiven
Lautstärke.
Bezug zur Hörakustik und mögliche Anwendung
Der von uns vorgestellte Mechanismus könnte in einigen Bereichen der Hörakustik
Anwendung finden, so zum Beispiel aktuell in der elektronischen Spracherkennung,
oder, damit verwandt, auch in Hörgeräten. Sowohl für elektronische Systeme als
auch für schwerhörige Menschen ist es in Umgebungen mit vielen Reflexionen nicht
leicht, speziell Sprache zu verstehen. Die Echos ’verwischen’ die Signale, was das
Erkennen und Verstehen erschwert.
In der Hörakustik beschäftigt man sich schon seit langem mit diesem Problem. So
bestand die erste Generation von Hörgeräten noch aus rein analogen Verstärkern, die
breitbandig die Lautstärke aller akustische Reize, eventuell mit besonderer Verstärkung im hohen, mittleren oder tiefen Frequenzbereich, angehoben haben. Dementsprechend wurden nicht nur Signale, sondern auch sämtliche Hintergrundgeräusche,
insbesondere die Echos, mitverstärkt. Derartige Geräte waren in vielen Situationen
nur bedingt hilfreich.
Die zweite Generation, bereits auf digitaler Technik basierend, ermöglichte dann
die gezielte Verstärkung ganz bestimmter Frequenzbereiche und damit ein erheblich
differenzierteres Hörbild. Störgeräusche mit charakteristischen Frequenzen wie zum
Beispiel Straßenlärm konnten so von der Verstärkung ausgenommen werden.
Die dritte, aktuelle Generation der Hörgeräte sind elektronische Systeme von hoher
Komplexität: mit bis zu drei Mikrophonen pro Ohr können sie Geräusche lokalisieren und auf Wunsch richtungsspezifisch verstärken, Sprache als solche erkennen und
hervorheben, Windgeräusche unterdrücken, Rückkopplungen auslöschen und vieles
mehr. Bei dem Lesen der Datenblätter dieser Hörgeräte wird einem bewußt, was
für eine atemberaubende Entwicklung dieser Bereich in den letzten Jahrzehnten
durchlaufen hat.
In modernen Hörgeräten sind somit auch die technischen Voraussetzungen für die
Implementierung einer Echounterdrückung erfüllt. Tatsächlich ist im Jahr 2005 von
einem der weltweit führenden Hörgerätehersteller, der Schweizer Firma Phonak,
das erste Hörgerät mit eingebauter Echounterdrückung vorgestellt worden. Es handelt sich um das Modell Savia“, die angesprochene Technologie läuft unter dem
”
Namen Echoblock“. Ihre Funktionsweise ist, da weltweit einmalig, ein Betriebsge”
heimnis. Anhand der öffentlich zugänglichen Information kann jedoch abgeschätzt
werden, inwieweit Echoblock“ unserem Modell ähnelt und unseren Überlegungen
”
54
so zusätzliches Gewicht verleiht.
Abbildung 4.1: Auszug aus einem Prospekt über das System Savia der Firma
Phonak. Originaluntertitel: Das Prinzip von EchoBlock. Der Nachhall wird erkannt
”
und unterdrückt“. Die Aktivität klingt nach Ende des Signals asymptotisch ab,
macht dann aber einen scharfen Knick und fällt schlagartig auf Null. Für unser
Modell ist ein derartiger Knick nicht zu erwarten, die Aktivität wird nach Ende des
Signals aber schneller als exponentiell auf Null fallen.
Abbildung 4.1 zeigt schematisch die Funktionsweise des Systems Echoblock“. Auf”
getragen ist offensichtlich der Schalldruck über der Zeit. Über eine gewisse, mit
Signal“ unterschriebene Zeit ist der Schalldruck konstant, dann fällt der Schall”
druck, vermutlich exponentiell, ab ( Nachhall-Ausläufer“). Hier greift EchoBlock“
”
”
und unterdrückt den langen Schwanz des Nachhalls.
Für einen Vergleich mit unserem Modell müssen wir uns Gedanken über das Verhalten der von uns vorgeschlagenen Verschaltung bei einem abklingenden Ton machen. In diesem Zusammenhang ist eine Publikation aus dem Jahr 1960 interessant. Es handelt sich um eine Untersuchung von Stein, in der das Absinken der
Mithörschwelle nach dem Abschalten von weissem Rauschen studiert wird [14]. Die
Probanden hören zunächst einen 500 ms langen Rauschpuls. Nach Ende des Rauschens wird ihnen zu verschiedenen Zeitpunkten ein 30 µs-Klick vorgespielt. Aufgabe
der Versuchspersonen ist es, die Lautstärke des Klicks so einzustellen, dass er gerade
wahrnehmbar ist.
Der Wert der Lautstärke, bei dem der Klick gerade wahrgenommen wird, heisst
Mithörschwelle. Nicht überraschend ist, dass mit steigendem zeitlichen Abstand
des Klicks die Mithörschwelle sinkt. Ungefähr 300 ms nach Ende des Rauschens
wird die natürliche Hörschwelle der Klicks erreicht, ab diesem Zeitpunkt beeinflusst das vorhergehende Signal die Wahrnehmung also nicht mehr. Interessant
55
ist jedoch die Veränderung der Wahrnehmung innerhalb dieser ersten 300 ms: Bis
4 ms nach Ende des Rauschens bleibt die Mithörschwelle auf dem gleichen Pegel
wie während des Rauschens, dann folgt ein Absinken der Mithörschwelle auf die
natürliche Hörschwelle. Das Absinken folgt dabei keinem exponentiellen Gesetz, es
ist wesentlich schneller.
Während das schnelle Absinken nur Spekulationen über einen aktiven Mechanismus
der Wahrnehmungsunterdrückung nährt, kann die Verzögerung des Absinkens nach
Ende des Tones um 4 ms sehr leicht mit unserem Modell erklärt werden: Analog
zu der Verzögerung der Inhibition zu Beginn eines Tones erfolgt ihr Abklingen mit
Verspätung. Das Gleichgewicht zwischen Inhibition und Exzitation, das sich, wie im
vorherigen Kapitel gesehen, bei einem anhaltenden Ton einstellt, wird bei dem Ende
oder einer Abschwächung des Reintons gestört. Die Exzitation wird augenblicklich,
die Inhibition jedoch mit Verzögerung abfallen. Aus der anhaltenden Inhibition folgt
die von Stein beschriebene Verzögerung im Absinken der Mithörschwelle.
Klingt das Signal langsam ab, wird es so zu einem bestimmten Zeitpunkt immer von
der zu einem vorhergehenden und damit stärkeren Signal gehörenden Inhibition
unterdrückt werden. Damit ist die Inhibition und folglich die Unterdrückung des
Nachhalls überproportional stark.
Wir sehen also, dass das Verhalten unseres Modells mit einem weiteren, gänzlich
anderen psychophysikalischen Experiment übereinstimmt. Zusätzlich scheint der
im Hörgerät der Firma Phonak Anwendung gefunden habende Algorithmus zur
Echounterdrückung zumindest prinzipiell unserer Verschaltung ähnlich zu sein. Damit verstärken sich die für das vorgeschlagene Modell sprechenden Indizien, es ist
aber auch möglich, dass der untersuchte Mechanismus bereits seinen Weg in die
Anwendung gefunden hat.
Bedenkt man nun einerseits, aus welchen Jahren die für die vorliegende Arbeit entscheidenden Publikationen stammen, nämlich 1960 (Harris et al.) und 1990 (Wickesberg und Oertel), als auch andererseits die äußerst überschaubare Architektur der
untersuchten Verschaltung, stellt sich die Frage, ob bei einer mehr am biologischen
Vorbild orientierten Forschung die Echounterdrückung ihren Weg nicht schon viel
früher in Produkte des Alltags gefunden hätte.
Am Beispiel der vorliegenden Arbeit wird damit ein weiteres Mal deutlich, wie
fruchtbar es für Forschung und Entwicklung sein kann, sich an biologischen Lösungsstrategien zu orientieren.
56
Kapitel 5
Zusammenfassung
Zu Beginn dieser Arbeit wurde einleitend festgestellt, dass Echos nicht nur in den
gemeinhin mit Echos assoziierten Umgebungen wie zum Beispiel Bergen existieren
sondern Teil unseres Alltags sind. Gewöhnlich werden die Echos jedoch nicht bewusst
wahrgenommen, da sie von unserem Nervensystem unterdrückt werden. Thema der
Arbeit ist ein Mechanismus zur Unterdrückung von Echos, genauer ein neuronales
Modell für die monaurale Echounterdrückung.
Eine Reihe von psychophysikalischen Experimenten weist darauf hin, dass ein einsetzendes Signal, sei es nun Klick oder Reinton, eine Inhibition auslöst, die dann
nachfolgende Reize unterdrückt. Diese Unterdrückung hat ihr Maximum einige Millisekunden nach Beginn des ersten Reizes. Basierend auf biologischen Forschungsergebnissen erstellen und untersuchen wir ein Modell, das eine mögliche neuronale
Implementierung monauraler Echounterdrückung darstellt. Hierfür verwenden wir
zwei verschiedene Typen von Neuronmodellen, einmal Poisson-Neurone, die nur entfernt biologischen Neuronen entsprechen, dafür aber eine analytische Lösung für die
vorgeschlagene Verschaltung ermöglichen, und als zweites Spikes-Response-Neurone,
die biologische Neurone sehr realistisch beschreiben, im Gegenzug aber numerische Simulationen erfordern. Untersucht wird das Verhalten für in verschiedenen
Abständen aufeinander folgende Klicks und einsetzende Reintöne.
Beginnen wir mit den analytischen Lösungen. Erwartungsgemäß werden Klicks, die
anderen Klicks folgen, unterdrückt. Diese Unterdrückung ist maximal für Klickintervalle von einigen Millisekunden. Es zeigt sich, dass die charakteristische Zeit der
Inhibition nicht nur Verzögerung und Dauer der Unterdrückung beeinflusst, sondern
auch ihre Stärke. Auf einen einsetzenden Reinton reagiert das System zunächst mit
einem Absinken der Feuerrate. Danach erklimmt die Aktivität ein mehr oder min57
58
KAPITEL 5. ZUSAMMENFASSUNG
der ausgeprägtes Maximum, um dann auf einen Gleichgewichtswert zu fallen. Der
zeitliche Verlauf der Unterdrückung wird hier von der charakteristischen Zeit der
Inhibition nicht beeinflusst, wohl aber das Ausmaß der Unterdrückung. Der Gleichgewichtswert der Feuerrate ist im Vergleich zu dem Wert, der sich ohne Inhibition
ergibt, erniedrigt. Essentiell ist, dass die vom Sinussignal verursachten Amplitudenschwankungen, das Charakteristikum des Tones, jedoch nicht vermindert werden.
Die Phaseninformation wird also im analytisch lösbaren Modell vollständig erhalten.
In den numerischen Rechnungen zeigt das Modell im Vergleich zu den analytischen
Lösungen zumindest für Klicks fast identisches Verhalten. Auch hier werden Klicks
von vorhergehenden Klicks unterdrückt, maximal ist die Unterdrückung für Klickintervalle von 2 - 3 ms. Die Variation eines im analytischen Teil nicht vorhandenen
Parameters, der Streuung der Inhibition in benachbarte Frequenzen, zeigt hier noch
keinen Einfluss auf das Verhalten des Modells. Für einen Reinton als Signal ändert
sich das. Bei geringer Streuung der Inhibition wird hier ein Teil der Phaseninformation des Tonsignals unterdrückt. Bei großer Streuung der Inhibition in benachbarte
Frequenzen wird die Phaseninformation, ähnlich den analytischen Lösungen, nicht
reduziert.
Sowohl die analytischen als auch die numerischen Ergebnisse stehen in Einklang mit
den beschriebenen psychophysikalischen Experimenten. Klicks werden von vorhergenden Klicks unterdrückt, und zwar maximal bei einem Klickabstand von wenigen
Millisekunden; Reintöne werden in den analytischen Lösungen kurz nach ihrem Beginn manipuliert, ihre Phaseninformation bleibt aber vollständig erhalten. Das gilt
für die relevanten Parametersätze auch in den numerischen Rechnungen.
In der Arbeit kommen wir zu dem Schluss, dass der untersuchte Mechanismus real existiert und seine Aufgabe sowohl die monaurale Echounterdrückung als auch
eine Lautstärkeanpassung ist. Das klare Design macht das Modell für die Theorie
ansprechend und für die Praxis verwertbar.
Anhang A
Nachtrag zu Kapitel 3.2.2
In diesem Anhang soll die aus Gründen der Übersichtlichkeit in Kapitel 3.2.2 nicht
ausgeführte mathematische Darstellung der analytischen Lösung für einen schwingenden Reinton als Eingangssignal nachgeholt werden.
In Kapitel 3.2.2 hatten wir einen einsetzenden Reinton mit folgender Inputfunktion
beschrieben:
Fin (t) = [ 1 − cos(ωt) ] Θ(t).
(A.1)
Aufgrund der Linearität des Poisson-Modells ist die gesuchte Lösung die Summe der
Lösungen für eine Heaviside-Funktion und für eine negative Kosinusfunktion. Für
eine bessere Übersichtlichkeit zerlegen wir die Lösung zudem in einen inhibitorischen
und einen exzitatorischen Teil:
λ2 (t) = λexzit.
(t) + λinhib.
(t)
2
2
Für den exzitatorischen Teil der Lösung ergibt sich
59
(A.2)
60
ANHANG A. NACHTRAG ZU KAPITEL 3.2.2
t−∆t02
1− τ
1
exzit.
Θ(t − ∆t02 )+
= α J02 τexzit. e − (t − ∆t02 ) − e
(
t−∆t02
e1
t − ∆t02
−τ
exzit. +
+ α J02 2 2
−
e
1
ω τexzit.
+1
2
ω 2 τexzit.
τexzit.
1
+
−
1
cos ω(t − ∆t02 ) +
2
2
2
1
ω τexzit.
+1
2
ω 2 τexzit.
)
t−∆t02 1
2
−τ
Θ(t − ∆t02 ).
sin ω(t − ∆t02 ) −
+
− 1 e exzit.
2
ω τexzit.
ω 2 τexzit.
λexzit.
(t)
2
(A.3)
Hier ist der erste Term identisch mit dem exzitatorischen Teil der Lösung für eine
Heaviside-Funktion als Input. Der zweite Term stammt aus der Integration über die
Schwingung.
Für den inhibitorischen Teil der Lösung gilt ebenfalls, dass der erste Summand
identisch dem inhibitorischen Term der Lösung für eine Heaviside-Funktion ist. Die
allgemeinere, also für verschiedene Relaxationszeiten von Inhibition und Exzitation
gültige Lösung ist
t−∆t
τexzit. 2 2
1
t − ∆t012
2
2− τ 012
exzit.
= α J01 J12
+
+ 2
+
e τinhib. − e
τinhib.
a3 τexzit. a2
a τexzit.
t−∆t012
2
1
t − ∆t012
2−
+ e τinhib.
+
−
−
(t
−
∆t
)
τ
Θ(t − ∆t012 ) +
012 inhib.
a3 τexzit. a2
a
(
e2
1
1
2×
+ α J01 J12 2
−
1
ω τexzit. τinhib.
τexzit. ω2 τ 2
+1 a
exzit.
t−∆t
t−∆t
2
2
1
− τ 012
− τ 012
exzit.
inhib.
e
1+
+e
t − ∆t012 −
+
2 ×
1
a
a
+1
2
ω 2 τexzit.
1
1
1
1
2
−
1
−
1
A
(t)
+
A
(t)
−
×
1
2
2
2
ω2
ω 2 τexzit.
a2
ω 2 τexzit.
ω 2 τexzit.
)
h t−∆t012 i
− τ
Θ(t − ∆t012 ),
(A.4)
e inhib. a(t − ∆t012 ) − 1 + 1
λinhib.
(t)
2
was sich im Fall identischer charakteristischer Zeiten für Inhibition und Exzitation
zu
61
"
λinhib.
(t)
2
+e
2−
2
= α J01 J12 e τ − e
t−∆t012
τ
(
−
1
ω2 τ 2
2−
t−∆t012
τ
(t − ∆t012 )3 (t − ∆t012 )2
−
6τ
2
#
(t − ∆t012 )τ − τ
1
6τ
2
+1
e−
t−∆t012
τ
2
Θ(t − ∆t012 ) + α J01 J12
(t − ∆t012 )3 +
+
e2
×
ω2 τ 2
1
2 ×
+1
)
t−∆t012
i
×
− 1 e− τ (t − ∆t012 )2
1
ω2 τ 2
h 1
1
2
1 1
−
1
A
(t)
+
A
(t)
−
1
2
ω2 τ 2
ω2
ω2 τ
2 ω2 τ 2
Θ(t − ∆t012 )
(A.5)
vereinfacht. Die Terme A1 (t) und A2 (t) sind dabei wie folgt definiert:
A1 (t) = −
t − ∆t012
τinhib. ω2 τ12
inhib.
+1
e
−
t−∆t012
τinhib.
+
1
1
2
ω 2 τinhib.
+1
2 ×
1
2
sin ω(t − ∆t012 ) −
−
1
cos ω(t − ∆t012 ) +
2
2
ω τinhib.
ω τinhib.
t−∆t012
1
−
−
− 1 e τinhib.
2
ω 2 τinhib.
(A.6)
und
012
t − ∆t012 − t−∆t
1
A2 (t) =
e τinhib. +
×
2
2
a +1
ω (a + 1)2
t−∆t
− τ 012
2
inhib.
(a − 1) sin ω(t − ∆t012 ) − 2 a cos ω(t − ∆t012 ) + 2 a e
,
(A.7)
wie in Kapitel 3.2.2 gilt
a=
1
τexzit.
−
1
τinhib.
.
(A.8)
62
ANHANG A. NACHTRAG ZU KAPITEL 3.2.2
Wir sehen, dass die Lösung sehr unübersichtlich ist. Es stellt sich jedoch heraus,
dass viele Terme nur wenig zum Verlauf der Lösung beitragen. Die Lösung verhält
sich näherungsweise wie die Summe aus der Lösung für eine Heaviside-Funktion und
der negativen Kosinusfunktion.
Literaturverzeichnis
[1] Jens Blauert, Spatial Hearing, MIT Press Cambridge, Massachusetts (1999)
[2] R.K. Clifton, Breakdown of echo suppression in the precedence effect, Journal
of the Acoustical Society of America 82 (1987) 1834-1835
[3] G.M. Edelman, Auditory function, Wiley New York (1988)
[4] R.L. Freyman, R.K. Clifton and R.Y. Litovsky, Dynamic processes in the
precedence effect, Journal of the Acoustical Society of America 90 (1991) 874884
[5] M.B. Gardner, Historical Background of the Haas and/or Precedence Effect,
Journal of the Acoustical Society of America 43 (1968) 1243-1248
[6] H. Haas, Über den Einfluss des Einfachechos auf die Hörsamkeit von Sprache,
Acustica 1 (1951) 49-58
[7] E.R. Hafter and R.H. Dye, Detection of interaural differences of time in trains
of high frequency clicks as a function of interclick interval and number, Journal
of the Acoustical Society of America 73 (1983) 644-651
[8] E.R. Hafter and E.M. Wenzel, Lateralization of transients presented at high
rates: site of the saturation effect, Hearing - physiological basis and psychophysics, edited by R. Klinke and R. Hartman, Springer Berlin (1983) 220-208
[9] E.R. Hafter et al., Onset coding in lateralization: Its form, site and function,
Auditory function, edited by G.M. Edelman, Wiley (1988) 647-674
[10] G.G. Harris, J.L. Flanagan and B.J. Watson, Binaural Interaction of a Click
with a Click Pair, Journal of the Acoustical Society of America 35 (1963) 672678
63
64
LITERATURVERZEICHNIS
[11] J.L. van Hemmen, Theory of Synaptic Plasticity, Handbook of Biological Physics (Vol.4), Neuro-informatics, Neural Modelling, Elsevier Amsterdam (2001)
[12] R. Klinke, Hearing, Springer Berlin (1983)
[13] B. Rakerd and W.M. Hartmann, Localization of sound in rooms: III. Onset
and duration effects, Journal of the Acoustical Society of America 78 (1986)
1695-1706
[14] H.J. Stein, Das Absinken der Mithörschwelle nach dem Abschalten von weissem
Rauschen, Acustica 10 (1960) 116-119
[15] R.E. Wickesberg and D. Oertel, Tonotopic projection from the dorsal to the
anteroventral cochlear nucleus of mice, Journal of Comparative Neurology 268
(1988) 389-399
[16] R.E. Wickesberg and D. Oertel, Delayed, Frequency-Specific Inhibition in the
Cochlear Nuclei of Mice: A Mechanism for Monaural Echo Suppression, Journal
of Neuroscience 10 (1990) 1762-1768
[17] W.A. Yost, Fundamentals of hearing, Academic Press San Diego (1994)
[18] P.M. Zurek, The precedence effect and its possible role in the avoidance of
interaural ambiguities, Journal of the Acoustical Society of America 67 (1980)
952-964
[19] E. Zwicker, Psychoacoustics, Springer Berlin (1999)

Technische Universität München

Transcrição

Documentos relacionados

300% mehr Klicks mit schlauen Videos Sebastian Scharrer

Einrichtung eines bestehenden E-Mail

Molekulare Pathomechanismen der auditorischen Neuropathie

m-pathy Analysen

Soft- und Hardware-Konfiguration von MixW2xx

Einstellung SP2x

Versand DTAUS – Datei im Online-Banking

http://www.pspsource.de/news.php?item.257 Seite 1/1 Offizielle

Mein erstes Lexikon

Benutzerhandbuch Größe: 1717,65 kb