Mathematik für Studierende der Ingenieurwissenschaften III
Transcrição
Mathematik für Studierende der Ingenieurwissenschaften III
Mathematik für Studierende der Ingenieurwissenschaften III Heinrich Voß Arbeitsbereich Mathematik der Technischen Universität Hamburg–Harburg 1996 Inhaltsverzeichnis 22 Funktionen von mehreren Veränderlichen 22.1 Topologische Grundbegriffe 1 . . . . . . . . . . . . . . . . . . . . . . 1 22.2 Funktionen von mehreren Veränderlichen . . . . . . . . . . . . . . . 5 22.3 Differentialrechnung im IRn . . . . . . . . . . . . . . . . . . . . . . 8 22.4 Die Kettenregel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 22.5 Krummlinige Koordinaten . . . . . . . . . . . . . . . . . . . . . . . 19 22.6 Mittelwertsatz der Differentialrechnung . . . . . . . . . . . . . . . . 25 22.7 Divergenz, Rotation . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 22.8 Höhere Ableitungen . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 22.9 Der Satz von Taylor . . . . . . . . . . . . . . . . . . . . . . . . . . 35 23 Anwendungen der Differentialrechnung 39 23.1 Auflösung nichtlinearer Gleichungssysteme . . . . . . . . . . . . . . 39 23.2 Implizite Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . 47 23.3 Homotopieverfahren (Inkremental-Lastmethode) . . . . . . . . . . . 58 23.4 Extremwerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 23.5 Extremwerte unter Nebenbedingungen . . . . . . . . . . . . . . . . 70 23.6 Num. Behandlung von Minimierungsproblemen . . . . . . . . . . . 90 23.7 Nichtlineare Ausgleichsprobleme . . . . . . . . . . . . . . . . . . . . 96 2 INHALTSVERZEICHNIS 3 24 Integralrechnung bei mehreren Variablen 100 24.1 Integrale über rechteckige Bereiche . . . . . . . . . . . . . . . . . . 100 24.2 Integrale über kompakte Bereiche . . . . . . . . . . . . . . . . . . . 106 24.3 Modellierung durch Riemann Summen . . . . . . . . . . . . . . . . 111 24.4 Der Transformationssatz für Integrale . . . . . . . . . . . . . . . . . 115 24.5 Parameterabhängige Integrale . . . . . . . . . . . . . . . . . . . . . 122 24.6 Uneigentliche Integrale . . . . . . . . . . . . . . . . . . . . . . . . . 127 25 Integralsätze 134 25.1 Kurvenintegrale von Vektorfeldern . . . . . . . . . . . . . . . . . . . 134 25.2 Der Integralsatz von Green . . . . . . . . . . . . . . . . . . . . . . . 140 25.3 Flächen, Flächenintegrale . . . . . . . . . . . . . . . . . . . . . . . . 148 25.4 Integralsätze von Stokes und Gauss . . . . . . . . . . . . . . . . . . 159 26 Gew. Differentialgleichungen, Einführung 175 26.1 Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175 26.2 Grundlegende Begriffe und Definitionen . . . . . . . . . . . . . . . . 179 26.3 Elementare Lösungsmethoden für DGL 1. Ordnung . . . . . . . . . 181 26.4 Elementare Lösungsmethoden für DGL 2. Ordnung . . . . . . . . . 191 27 Anfangswertaufgaben 194 27.1 Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194 27.2 Existenz und Eindeutigkeit . . . . . . . . . . . . . . . . . . . . . . . 196 27.3 Abhängigkeit von Anfangswerten und Parametern . . . . . . . . . . 204 28 Lineare Differentialgleichungen 209 28.1 Lineare Systeme erster Ordnung . . . . . . . . . . . . . . . . . . . . 209 28.2 Systeme 1. O. mit konstanten Koeffizienten . . . . . . . . . . . . . . 214 28.3 Lineare DGL höherer Ordnung . . . . . . . . . . . . . . . . . . . . 220 28.4 Lineare DGL mit konstanten Koeffizienten . . . . . . . . . . . . . . 227 29 Asymptotisches Verhalten, Stabilität 236 29.1 Einleitende Beispiele, Definition . . . . . . . . . . . . . . . . . . . . 236 29.2 Stabilität linearer Systeme . . . . . . . . . . . . . . . . . . . . . . . 239 29.3 Störungen linearer Systeme . . . . . . . . . . . . . . . . . . . . . . 244 29.4 Die Methode von Ljapunov . . . . . . . . . . . . . . . . . . . . . . 246 30 Num. Verfahren für Anfangswertaufgaben 251 30.1 Das Eulersche Polygonzugverfahren . . . . . . . . . . . . . . . . . . 251 30.2 Einschrittverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . 257 30.3 Mehrschrittverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . 261 30.4 Steife Probleme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 267 31 Randwertaufgaben 276 31.1 Allgemeines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276 31.2 Die Greensche Funktion . . . . . . . . . . . . . . . . . . . . . . . . 278 31.3 Grundbegriffe der Variationsrechnung . . . . . . . . . . . . . . . . . 285 31.4 Randeigenwertaufgaben 296 . . . . . . . . . . . . . . . . . . . . . . . . 32 Num. Verfahren für Randwertaufgaben 300 32.1 Differenzenverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . 301 32.2 Ritz Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303 32.3 Schießverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 307 Literaturverzeichnis 309 Kapitel 22 Funktionen von mehreren Veränderlichen In den Anwendungen ist es häufig nicht ausreichend, reelle Funktionen von einer reellen Veränderlichen zu betrachten, sondern es treten Abbildungen f : IRn ⊃ D → IRm auf. Beispiele hierfür sind im Falle n = 3, m = 1 die Temperaturverteilung in einem Körper, die Ladungsverteilung im Raum, oder Potentiale; im Falle n = 3, m = 3 die Geschwindigkeit in einem strömenden Medium, oder ein Kraftfeld; im Falle n = 3, m = 6 die Spannung in einem Körper. Wir wollen im folgenden die Differential- und Integralrechnung auf Funktionen von mehreren Veränderlichen ausdehnen. Dazu benötigen wir die Kenntnis algebraischer Eigenschaften des n-dimensionalen Raumes, die wir in Mathematik I bereitgestellt haben, und topologische Eigenschaften, die wir zum Teil in Mathematik II schon angesprochen haben und die wir in diesem Abschnitt noch einmal zusammenstellen wollen. 22.1 Topologische Grundbegriffe Es sei k·k irgendeine Norm auf IRn . Dann heißt Kε (x0 ) := {x ∈ IRn : kx − x0 k < ε} 2 KAPITEL 22. FUNKTIONEN VON MEHREREN VERÄNDERLICHEN die (offene) Kugel um x0 mit Radius ε oder ε-Umgebung von x0 , und K̄ε (x0 ) := {x ∈ IRn : kx − x0 k ≤ ε} die abgeschlossene Kugel um x0 mit Radius ε. Allgemein heißt jede Menge U ⊂ IRn eine Umgebung von x0 ∈ IRn , wenn es eine Kugel Kε (x0 ) gibt mit Kε (x0 ) ⊂ U . Da alle Normen auf IRn äquivalent sind, ist der Begriff “Umgebung” unabhängig von der gewählten Norm. Es sei M ⊂ IRn eine Menge und x0 ∈ IRn . x0 heißt Randpunkt von M , wenn es in jeder Umgebung von x0 einen Punkt aus M gibt und einen Punkt, der nicht in M liegt. Abbildung 22.1 Die Menge aller Randpunkte von M bezeichnen wir mit ∂M und nennen sie den Rand von M . Es gilt also ∂M = {x ∈ IRn : Kε (x) ∩ M 6= ∅, Kε (x) \ M 6= ∅ ∀ ε > 0}. Ein Punkt x ∈ M , der nicht Randpunkt von M ist, heißt innerer Punkt von M . Offenbar ist x ∈ M genau dann ein innerer Punkt von M , wenn es eine Umgebung U von x gibt mit U ⊂ M . Die Menge aller inneren Punkte von M heißt das Innere von M oder der offene ◦ Kern von M und wird mit M bezeichnet. Eine Menge M heißt offen, wenn sie nur ◦ aus inneren Punkten besteht, wenn also M =M gilt. Eine Menge M heißt abgeschlossen, wenn jeder Randpunkt von M zu M gehört, d.h. ∂M ⊂ M . Die Vereinigung einer Menge mit ihrem Rand heißt die abgeschlossene Hülle von M oder der Abschluß von M und wird mit M̄ := M ∪ ∂M bezeichnet. Offenbar ist eine Menge M genau dann abgeschlossen, wenn ihr Komplement IRn \ M offen ist. Abbildung 22.2 22.1. TOPOLOGISCHE GRUNDBEGRIFFE 3 In Mathematik II haben wir den Begriff abgeschlossene Menge in anderer Weise verwendet. Die Verbindung stellt der folgende Satz 22.1. her. Satz 22.1. M ⊂ IRn ist genau dann abgeschlossen, wenn mit jeder konvergenten Folge {xm } ⊂ M auch der Grenzwert in M liegt. Beweis: Es sei M abgeschlossen und {xm } ⊂ M eine konvergente Folge mit x̄ := lim xm ∈ / M . Da IRn \ M offen ist, gibt es eine Umgebung Kε (x̄) von x̄ mit m→∞ Kε (x̄) ⊂ IRn \ M , d.h. kx − x̄k ≥ ε für alle x ∈ M und insbesondere kxm − x̄k ≥ ε im Widerspruch zu m→∞ lim xm = x̄. Ist M nicht abgeschlossen, so existiert x̄ ∈ ∂M, x̄ ∈ / M . Für alle m ∈ IN gilt lim xm = K 1 (x̄) ∩ M 6= ∅; wir wählen xm ∈ K 1 (x̄) ∩ M . Dann gilt {xm } ⊂ M, m→∞ m m x̄ ∈ / M. x̄ ∈ IRn heißt Häufungspunkt von M, wenn es eine konvergente Folge {xm } ⊂ M gibt mit lim xm = x̄. Der Satz 22.1. besagt also, daß eine Menge M genau dann m→∞ abgeschlossen ist, wenn alle Häufungspunkte von M in M liegen. Beispiel 22.2. Kε (x0 ) ist eine offene Menge, denn für x ∈ Kε (x0 ) gilt mit δ := ε − kx − x0 k > 0 für alle y ∈ Kδ (x) nach der Dreiecksungleichung kx0 − yk ≤ kx0 − xk + kx − yk < ε, d.h. Kδ (x) ⊂ Kε (x0 ). Offenbar ist ∂Kε (x0 ) = {x ∈ IRn : kx − x0 k = ε} der Rand von Kε (x0 ), und daher gilt für den Abschluß Kε (x0 ) ∪ ∂Kε (x0 ) = {x ∈ IRn : kx − x0 k ≤ ε} = K̄ε (x0 ); wir haben also die abgeschlossene Kugel zu Recht mit K̄ε (x0 ) (= Abschluß der Kugel Kε (x0 )) bezeichnet. 2 Beispiel 22.3. IRn ist offen mit ∂IRn = ∅ und daher ist IRn auch abgeschlossen. 2 Beispiel 22.4. Seien a, b ∈ IRn . Dann heißt Q := {x ∈ IRn : ai < xi < bi , i = 1, . . . , n} =: (a, b) ein offenes Intervall (oder offenes Rechteck oder offener Quader). Q ist offen und ∂Q = {x ∈ IRn : ai ≤ xi ≤ bi , ∃i0 mit ai0 = xi0 ∨ bi0 = xi0 }. Das abgeschlossene Intervall Q̄ := {x ∈ IRn : ai ≤ xi ≤ bi , i = 1, . . . , n} ist eine abgeschlossene Menge, {x : ai < xi ≤ bi } ist weder offen noch abgeschlossen. Für alle drei Mengen ist ∂Q der Rand. 2 4 KAPITEL 22. FUNKTIONEN VON MEHREREN VERÄNDERLICHEN Eine Menge M ⊂ IRn heißt kompakt, wenn jede Folge {xm } ⊂ M eine in M konvergente Teilfolge xmj → x̄ ∈ M enthält. Die folgende Charakterisierung ist handlicher. Satz 22.5. Eine Menge M ⊂ IRn ist genau dann kompakt, wenn sie beschränkt und abgeschlossen ist. Beweis: Es sei M beschränkt und abgeschlossen. Dann besitzt nach dem Satz von Bolzano, Weierstraß (Satz ??) jede Folge {xm } ⊂ M eine konvergente Teilfolge {xmj }, lim xmj = x̄, und wegen der Abgeschlossenheit von M gilt x̄ ∈ M . j→∞ Ist umgekehrt M kompakt, so ist M beschränkt (denn sonst gäbe es eine Folge {xm } ⊂ M mit kxm k ≥ m für alle m ∈ IN, die sicher keine konvergente Teilfolge enthält) und abgeschlossen (denn sonst gäbe es eine konvergente Folge {xm } ⊂ M mit x̄ := lim xm ∈ / M , und damit konvergiert auch jede konvergente Teilfolge m→∞ gegen x̄ im Widerspruch zur Kompaktheit von M ). Beispiel 22.6. Das abgeschlossene Intervall Q̄ und jede abgeschlossene Kugel K̄ε (x0 ) sind kompakt. Der positive Oktant P := {x ∈ IR3 : xi ≥ 0, i = 1, 2, 3} ist 2 abgeschlossen, aber nicht kompakt. Die Menge M ⊂ IRn heißt zusammenhängend, wenn es zu je zwei Punkten x, y ∈ M einen Weg z : [0, 1] → IRn gibt, der x und y verbindet und ganz in M verläuft, d.h. z(0) = x, z(1) = y, z(t) ∈ M für alle t ∈ [0, 1]. Eine offene, zusammenhängende Menge M ⊂ IRn heißt ein Gebiet. Der Durchschnitt von endlich vielen offenen Mengen ist eine offene Menge. Jedoch ist der Durchschnitt von zwei Gebieten i.a. kein Gebiet. Dies sieht man an der Abbildung 22.3. Abbildung 22.3 22.2. FUNKTIONEN VON MEHREREN VERÄNDERLICHEN 5 Beispiel 22.7. Die (offene) Kugel Kε (x0 ) ist ein Gebiet, denn mit je zwei Punkten x und y liegt die Verbindungsgerade in Kε (x0 ), das offene Intervall (a, b) ⊂ IRn ist mit derselben Begründung ein Gebiet, die Sphäre S := {x ∈ IRn : kx − x0 k = a}, a > 0, ist zusammenhängend, denn S ∩ {x0 + λ(x − x0 ) + µ(y − x0 ) : λ, µ ∈ IR} ist für alle x, y ∈ S, x 6= y, ein Kreis in S, der x und y verbindet, aber kein Gebiet, denn 2 wegen S = ∂S ist S nicht offen. 22.2 Funktionen von mehreren Veränderlichen Wir betrachten nun Funktionen f : IRn ⊃ D → IRm . Im einfachsten Fall n = 2, m = 1, einer reellen Funktion von zwei Veränderlichen gibt es zwei Möglichkeiten, die Funktion graphisch darzustellen: Man kann die Punktmenge {(x, y, f (x, y))T : (x, y)T ∈ D} in ein räumliches Koordinatensystem eintragen. Die Menge dieser Punkte heißt wieder der Graph von f . Abbildung 22.4 Beispiel 22.8. Die Graphen der Funktionen f (x, y) = x2 − y 2 und g(x, y) = x2 − 3xy 2 in der Abbildung 22.5 zeigen einen Sattelpunkt und den sog. Affensattel. 2 Besser wird der Eindruck von der Funktion häufig, wenn man den Graphen “beleuchtet” und die Schatten durch Graufärbung verdeutlicht. Abbildung 22.6 enthält die beleuchteten Graphen des Sattelpunktes und des Affensattels aus Beispiel 22.8. 6 KAPITEL 22. FUNKTIONEN VON MEHREREN VERÄNDERLICHEN Abbildung 22.5 Abbildung 22.6 unbeleuchtete Graphen beleuchtete Graphen Eine zweite Möglichkeit ist die Veranschaulichung mit Hilfe von Niveaulinien (Höhenlinien). Man zeichnet in ein ebenes Koordinatensystem für verschiedene Werte von z die Mengen {(x, y) : f (x, y) = z} ein. Diese Art der Darstellung ist aus Wetterkarten (Isobaren) und topographischen Karten (Höhenlinien) bekannt. Abbildung 22.7 enthält die Höhenlinienbilder der Funktionen f (x, y) = x2 − y 2 und g(x, y) = x3 − 3xy 2 aus Beispiel 22.8.. 22.2. FUNKTIONEN VON MEHREREN VERÄNDERLICHEN Abbildung 22.7 7 Höhenlinien Für n ≥ 3 und/oder m ≥ 2 ist eine graphische Veranschaulichung nicht mehr möglich. Wir erinnern an den Begriff der Stetigkeit: f : IRn ⊃ D → IRm ist stetig in x0 ∈ D, wenn es zu jedem ε > 0 ein δ > 0 gibt mit kx − x0 k < δ, x ∈ D =⇒ kf (x) − f (x0 )k < ε (Beachte, daß k·k links eine Norm in IRn , rechts eine Norm in IRm bezeichnet). Wir wissen bereits, daß f genau dann stetig in x0 ist, wenn für jede Folge {xk } ⊂ D mit xk → x0 gilt: f (xk ) → f (x0 ). Hieraus folgt wieder, daß die Summe, das innere Produkt und das Kreuzprodukt (im Falle m = 3) stetiger Funktionen stetig ist. Ist f : IRn ⊃ D → IRm und x0 ∈ IRn ein Häufungspunkt von D, so konvergiert f für x → x0 gegen den Grenzwert a ∈ IRm , wenn für jede Folge {xk } ⊂ D mit lim xk = x0 gilt lim f (xk ) = a. Man schreibt dann lim0 f (x) = a, und sagt auch, k→∞ k→∞ x→x daß f in x0 durch f (x0 ) = a stetig fortgesetzt werden kann. x2 0 x 0 , 6= , kann nicht stetig in fortgey 0 0 x2 + y 2 setzt werden, denn in Polarkoordinaten gilt f (r cos ϕ, r sin ϕ) = cos2 ϕ. Bei Annähe Beispiel 22.9. f (x, y) = rung an 0 aus verschiedenen Richtungen erhält man für f (xk ) also verschiedene Grenzwerte. 2 Wir fassen in dem folgenden Satz 22.10. noch einmal die Eigenschaften stetiger Funktionen zusammen, die wir in Kapitel ?? bewiesen haben. 8 KAPITEL 22. FUNKTIONEN VON MEHREREN VERÄNDERLICHEN Satz 22.10. f : IRn ⊃ D → IRm sei stetig und D sei kompakt. Dann gilt (i) f ist beschränkt (ii) im Falle m = 1 nimmt f Minimum und Maximum in D an, d.h. es gibt x1 , x2 ∈ D mit f (x1 ) = max f (x), f (x2 ) = min f (x) x∈D x∈D (iii) f ist gleichmäßig stetig in D. 22.3 Differentialrechnung im IRn Wir wollen nun den Begriff der Differenzierbarkeit auf Funktionen von mehreren Veränderlichen übertragen. Der Differenzenquotient ist für f : IRn ⊃ D → IRm für n ≥ 2 nicht erklärt, so daß die aus der Schule bekannte Definition der Differenzierbarkeit für den Fall n = m = 1 nicht übertragen werden kann. Wir setzen uns wieder zum Ziel, die (komplizierte) Funktion f durch eine affin lineare (einfache) Funktion lokal (in einer Umgebung von x0 ) zu ersetzen. Diese lineare Approximation wird zur Konstruktion von numerischen Methoden (z.B. Newton Verfahren für das Nullstellenproblem f (x) = 0) aber auch für analytische Zwecke (z.B. Ersetzen der nichtlinearen Kennlinie einer Feder durch das Hookesche Gesetz, so daß die Bewegungsgleichung einer schwingenden Masse an einer Feder exakt gelöst werden kann) verwendet. Völlig analog dem Fall einer reellen Funktion von einer reellen Variablen definieren wir: Definition 22.11. Gegeben sei die Funktion f : IRn ⊃ D → IRm und ein innerer Punkt x0 ∈ D. f heißt differenzierbar (auch total differenzierbar) in x0 , wenn es eine Matrix A ∈ IR(m,n) gibt, so daß f in einer Umgebung von x0 die Darstellung f (x0 + h) = f (x0 ) + Ah + r(x0 , h) hat mit 1 r(x0 , h) = 0. h→0 khk lim Die Matrix A bezeichnen wir dann mit A =: f 0 (x0 ) und nennen sie die (totale) Ableitung von f in x0 . 22.3. DIFFERENTIALRECHNUNG IM IRN 9 Beispiel 22.12. f : IR2 → IR, f (x, y) = x2 + ex+y . Es ist mit θ ∈ (0, 1) f (x + h, y + k) − f (x, y) = (x + h)2 + ex+y+h+k − x2 − ex+y 1 = (2x + h)h + ex+y (1 + (h + k) + (h + k)2 eθ(h+k) − 1) 2 1 = (2x + ex+y )h + ex+y k + h2 + (h + k)2 eθ(h+k) ex+y 2 h + r(h, k), = (2x + ex+y , ex+y ) k wobei wegen |h|, |k| ≤ k(h , k)T k∞ |r(h, k)| 1 1 ≤ (|h|2 + (|h|2 + 2|h||k| + |k|2 ) eθ(h+k) ex+y ) T T k(h , k) k∞ k(h , k) k∞ 2 h h ≤ k k∞ (1 + 2eθ(h+k) ex+y ) → 0 für k k → 0. k k ∞ Damit ist f in jedem Punkt x0 y0 ∈ IR2 differenzierbar mit f 0 (x0 , y0 ) = (2x0 + ex0 +y0 , ex0 +y0 ) ∈ IR(1,2) . 2 Wie im Falle n = m = 1 gilt ◦ Satz 22.13. Es sei f : IRn ⊃ D → IRm differenzierbar in x0 ∈D. Dann gilt (i) f 0 (x0 ) ∈ IR(m,n) ist eindeutig bestimmt, (ii) f ist stetig in x0 . Beweis: (i): Es seien A, B ∈ IR(m,n) zwei Ableitungen von f in x0 und h ∈ IRn beliebig mit khk = 1. Dann gilt für alle τ 6= 0 f (x + τ h) − f (x) − τ Ah f (x + τ h) − f (x) − τ Bh − , k(A − B)hk = τ τ und für τ → 0 erhält man Ah = Bh. (ii): Es ist kf (x) − f (x0 ) − f 0 (x0 ) (x − x0 )k kf (x) − f (x )k ≤ kx − x k kx − x0 k + kf 0 (x0 )k · kx − x0 k → 0 für x → x0 . 0 0 10 KAPITEL 22. FUNKTIONEN VON MEHREREN VERÄNDERLICHEN Wir beschreiben nun eine Methode, mit der man die Ableitung einer Funktion f : IRn ⊃ D → IRm berechnen kann. Dabei betrachten wir zunächst den Fall m = 1. Den Fall m > 1 können wir dann hierauf zurückführen. In Beispiel 22.12. steht in der ersten Komponente von f 0 (x0 , y0 ) die Ableitung g 0 (x0 ) der Funktion g(x) := f (x, y0 ) = x2 + ex+y0 , die man erhält, indem man die Variable y bei y0 einfriert, also als Parameter betrachtet. In der zweiten Komponente erhält man die Ableitung der Funktion h(y) := f (x0 , y) = x20 + ex0 +y an der Stelle y0 . Dies ist kein Zufall. Definition 22.14. Es sei f : IRn ⊃ D → IR, x0 ∈ D ein innerer Punkt von D (z.B. Kε (x0 ) ⊂ D) und i ∈ {1, . . . , n} fest gewählt. Wir frieren die übrigen Variablen ein: xj := x0j , j 6= i, und betrachten gi : IR ⊃ {t ∈ IR : (x01 , . . . , x0i−1 , t, x0i+1 , . . . , x0n )T ∈ D} =: Di −→ IR, gi (t) := f (x01 , . . . , x0i−1 , t, x0i+1 , . . . , x0n ). Dann ist gi eine reelle Funktion und (x0i − ε, x0i + ε) ⊂ Di . Ist gi differenzierbar in x0i , so sagen wir, daß f in x0 partiell differenzierbar nach xi ist. Die Ableitung gi0 (x0i ) heißt partielle Ableitung von f nach xi in x0 und wird mit Di f (x0 ) := ∂ f (x0 ) ∂xi := gi0 (x0i ) bezeichnet. Im Gegensatz zur totalen Ableitung ist die partielle Ableitung wieder Grenzwert eines Differenzenquotienten: f (x0 − hei ) − f (x0 ) h→0 h 0 0 f (x1 , . . . , xi−1 , x0i + h, x0i+1 , . . . , x0n ) − f (x01 , . . . , x0i−1 , x0i , x0i+1 , . . . , x0n ) = lim . h→0 h Di f (x0 ) = lim Die partielle Ableitung Di f einer vorgelegten Funktion f kann man ohne Schwierigkeiten berechnen, indem man alle Variablen außer xi als konstante Parameter auffaßt, und die bekannten Regeln (Produktregel, Kettenregel usw.) anwendet. Geometrisch bedeuten die partiellen Ableitungen Di f (x0 ) die Steigungen der Kurven, die man erhält, wenn man den Graphen {(x1 , . . . , xn , f (x))T : x ∈ D} 22.3. DIFFERENTIALRECHNUNG IM IRN 11 mit der Ebene {(x01 , . . . , x0i−1 , xi , x0i+1 , . . . , x0n , y)T : xi , y ∈ IR} schneidet. Abbildung 22.8 Partielle Ableitungen Definition 22.15. Ist f nach allen Koordinaten partiell differenzierbar in x0 , so heißt f in x0 partiell differenzierbar, und der Vektor grad f (x0 ) := (D1 f (x0 ), . . . , Dn f (x0 )) (ein Zeilenvektor!) heißt der Gradient von f in x0 . Der Spaltenvektor, der in seinen Komponenten die partiellen Ableitungen von f enthält, wird mit ∇f (x0 ) := (D1 f (x0 ), . . . , Dn f (x0 ))T bezeichnet und “Nabla f von x0 ” gelesen. Der Differentialoperator ∇ := ( heißt Nabla Operator. ∂ ∂ T , ... , ) ∂x1 ∂xn 12 KAPITEL 22. FUNKTIONEN VON MEHREREN VERÄNDERLICHEN Beispiel 22.16. f (x1 , x2 , x3 ) = x3 ex2 ·sin x1 besitzt die partiellen Ableitungen D1 f (x1 , x2 , x3 ) = x3 x2 cos x1 ex2 sin x1 D2 f (x1 , x2 , x3 ) = x3 sin x1 ex2 sin x1 D3 f (x1 , x2 , x3 ) = ex2 sin x1 . Es gilt also grad f (x) = ex2 sin x1 (x2 x3 cos x1 , x3 sin x1 , 1) = (∇f (x))T . 2 Beispiel 22.17. Die Funktion v uX u n r(x) := kxk2 = t x2j , j=1 die jedem x ∈ IRn seien Euklidischen Abstand vom Nullpunkt zuweist, ist für x 6= 0 partiell differenzierbar mit 2xi xi Di r(x) = s n = . P 2 r(x) 2 xj j=1 Es gilt also ∇r(x) = x . r(x) 2 Beispiel 22.18. Sei f : IRn → IR, n > 1, definiert durch f (x) := n 1 Y xj , x 6= 0, r2n (x) j=1 0, x = 0, wobei r wie in Beispiel 22.17. erklärt ist. Dann ist f für x 6= 0 partiell differenzierbar mit Di f (x) = n n Y Y 1 2n xi 2n−1 r (x) x − 2nr (x) x · j j r4n (x) r(x) j =1 j=1 j 6= i n Y n Y 1 2n = 2n xj − 2n+2 xi xj , r (x) j = 1 r (x) j=1 j 6= i 22.3. DIFFERENTIALRECHNUNG IM IRN 13 und für x = 0 gilt i f (0 + he ) − f (0) = 0, f (0 + hei ) − f (0) d.h. lim = 0. h→0 h Damit ist f auch in x = 0 partiell differenzierbar und ∇f (0) = 0. f ist aber nicht stetig in x = 0, denn 1 ) = 0 −→ 0 für m → ∞ m m n ( m1 )n 1 1 1 √ → ∞ für m → ∞. f( , , . . . , ) = = m m m n ( m1 n)2n f (0, 0, . . . , 2 Aus der Existenz aller partiellen Ableitungen in x folgt also i.a. nicht, daß f stetig in x ist, und erst recht nicht, daß f differenzierbar in x ist. Satz 22.19. Existieren die partiellen Ableitungen Di f in einer Umgebung von x0 und sind diese dort beschränkt, so ist f stetig in x0 . Beweis: Es ist f (x) − f (x0 ) = f (x1 , . . . , xn ) − f (x1 , . . . , xn−1 , x0n ) + f (x1 , . . . , xn−1 , x0n ) − f (x1 , . . . , xn−2 , x0n−1 , x0n ) + ... + f (x1 , x02 , . . . , x0n ) − f (x01 , x02 , . . . , x0n ). Betrachten wir für i = 1, . . . , n φi (xi ) := f (x1 , . . . , xi−1 , xi , x0i+1 , . . . , x0n ) als Funktion von xi (und x1 , . . . , xi−1 , x0i+1 , . . . , x0n als Parameter), so folgt aus dem Mittelwertsatz für reelle Funktionen f (x) − f (x0 ) = n X ∂f i=1 ∂xi (x1 , . . . , xi−1 , ξi , x0i+1 , . . . , x0n ) (xi − x0i ), und, da die partiellen Ableitungen beschränkt sind, erhält man hieraus f (x) → f (x0 ) für x → x0 . Die partiellen Ableitungen Di f sind Spezialfälle der Richtungsableitungen. 14 KAPITEL 22. FUNKTIONEN VON MEHREREN VERÄNDERLICHEN Definition 22.20. Es sei f : IRn ⊃ D → IR, x0 ∈ D ein innerer Punkt von D und h ∈ IRn mit khk2 = 1 gegeben. Die reelle Funktion φ : (−ε, ε) → IR, φ(t) := f (x0 + th), sei in t = 0 differenzierbar. Dann heißt ∂ f (x0 ) := φ0 (0) ∂h die Richtungsableitung von f in x0 in Richtung h. ∂ f (x0 ) wieder die Steigung des Graphen ∂h von f im Punkt x0 in Richtung des Vektors h. Geometrisch ist die Richtungsableitung Wir übertragen nun unsere Ergebnisse auf vektorwertige Funktionen f : IRn ⊃ D → IRm . Hierfür bezeichnen wir mit Di f bzw. ∂∂h f den Vektor der partiellen bzw. Richtungsableitungen der Komponenten von f in x0 . Definition 22.21. Wenn alle Komponenten fi von f : IRn ⊃ D → IRm nach allen Variablen xj in einem Punkt x0 partiell differenzierbar sind, so heißt f in x0 partiell differenzierbar. Sind die partiellen Ableitungen stetige Funktionen von x, so nennen wir f stetig partiell differenzierbar und schreiben f ∈ C 1 . Der folgende Satz 22.22. beschreibt die Beziehungen zwischen der totalen Ableitung und den Richtungsableitungen. Satz 22.22. (i) Ist f : IRn ⊃ D → IRm differenzierbar in x0 , so ist f in x0 auch bzgl. jeder Richtung h differenzierbar, insbesondere also partiell differenzierbar. Es gilt ∂ f (x0 ) = f 0 (x0 )h. ∂h (ii) Ist f in einer Umgebung von x0 stetig partiell differenzierbar, so ist f auch total differenzierbar, und es gilt D1 f1 (x0 ) . . . Dn f1 (x0 ) 0 0 f (x ) = . . . . . . . . . . . . . . . . . . . . . . . . . . 0 0 D1 fm (x ) . . . Dn fm (x ) 22.3. DIFFERENTIALRECHNUNG IM IRN 15 Definition 22.23. Die Matrix D1 f1 (x0 ) . . . Dn f1 (x0 ) 0 J f (x ) = . . . . . . . . . . . . . . . . . . . . . . . . . . 0 0 D1 fm (x ) . . . Dn fm (x ) heißt Funktionalmatrix oder Jacobi Matrix. Sie ist erklärt, wenn alle partiellen Ableitungen Di fj (x0 ) existieren. Wegen Satz 22.22. wird sie auch mit Df (x0 ) oder Jf (x0 ) bezeichnet. Beweis: (i): Aus der Definition der Differenzierbarkeit ergibt sich für jedes h ∈ IRn mit khk2 = 1, daß f (x0 + th) = f (x0 ) + tf 0 (x0 )h + r(x0 , th), 1 lim r(x0 , th) = 0, t→0 t ist, und daher ∂ 1 1 f (x0 ) = lim f (x0 + th) − f (x0 ) = lim f 0 (x0 )h + r(x0 , th) = f 0 (x0 )h. t→0 t t→0 ∂h t (ii): Sei zunächst m = 1. Wie im Beweis von Satz 22.19. gilt nach dem Mittelwertsatz f (x) − f (x0 ) = n X ∂f i=1 ∂xi (ξ i ) (xi − x0i ) mit ξ i := (x1 , . . . , xi−1 , x0i + θi (xi − x0i ), x0i+1 , . . . , x0n )T , θi ∈ (0, 1), und daher f (x) − f (x0 ) − grad f (x0 ) (x − x0 ) = n n X ∂f i=1 ∂xi (ξ i ) − ∂f 0 o (x ) (xi − x0i ), ∂xi d.h. n n f (x) − f (x0 ) − grad f (x0 ) (x − x0 ) X ∂f ∂f 0 o xi − x0i = →0 (ξ ) − (x ) i kx − x0 k∞ ∂xi kx − x0 k∞ i=1 ∂xi | für x → x0 wegen der Stetigkeit von f 0 (x0 ) = grad f (x0 ). {z |·|≤1 } ∂ f , d.h. f ist total differenzierbar in x0 mit ∂xi Für m > 1 kann man komponentenweise wie oben schließen. Die Forderung der Stetigkeit der partiellen Ableitungen ist notwendig, denn f in Beispiel 22.18. ist partiell differenzierbar in x0 = 0, aber nicht stetig und daher auch nicht differenzierbar in x0 = 0. 16 KAPITEL 22. FUNKTIONEN VON MEHREREN VERÄNDERLICHEN Beispiel 22.24. Für ! 2 x1 e2x1 −x2 x21 + x22 + 3 2 f : IR → IR , f (x) = gilt (1 + 2x1 ) e2x1 −x2 −x1 e2x1 −x2 2x1 2x2 0 f (x) = Speziell für x0 = 1 2 ! . ist f 0 (x0 ) = 3 −1 . 2 4 Es ist also 1 3 −1 f (x) = + 8 2 4 wobei für die x ∈ IR2 , für die kx − x1 − 1 + r(x), x2 − 2 1 k “klein” ist, r(x) “sehr klein” ist. 2 1 3 −1 `(x) = + 8 2 4 x1 − 1 x2 − 2 0 1 . 2 ist also eine gute lineare Approximation für f in der Nähe von x = 2 Ist n = 2 und m = 1, so kann man die Ableitung geometrisch veranschaulichen. Ist f differenzierbar in (x0 , y0 )T , so gilt ∂ x−x ∂ 0 f (x, y) = f (x0 , y0 ) + f (x0 , y0 ) , f (x0 , y0 ) + r(x, y). y − y0 ∂x ∂y Der Graph der affin linearen Funktion g(x, y) := f (x0 , y0 ) + ∂ ∂ f (x0 , y0 )(x − x0 ) + f (x0 , y0 )(y − y0 ) ∂x ∂y beschreibt eine Ebene E, die alle Tangenten an die reellen Funktionen φ(t) = f (x0 + th), h ∈ IR2 \ {0}, enthält, die sich also an den Graphen der Funktion f anschmiegt. ◦ Definition 22.25. Ist f : IR2 ⊃ D → IR differenzierbar in (x0 , y0 )T ∈D, so heißt E= ( ) T ∂ ∂ x, y, f (x0 , y0 ) + f (x0 , y0 )(x − x0 ) + f (x0 , y0 )(y − y0 ) : x, y ∈ IR ∂x ∂y die Tangentialebene an den Graphen von f in (x0 , y0 , f (x0 , y0 ))T . Für die Normale der Tangentialebene gilt offenbar n= ∂ ∂x f (x0 , y0 ) , T T ∂ f (x0 , y0 ) , −1 = grad f (x0 , y0 ) , −1 . ∂y 22.4. DIE KETTENREGEL 22.4 17 Die Kettenregel Sind f , g : IRn ⊃ D → IRm differenzierbar in x0 ∈ D, so sind, wie in Kapitel ??, f + g und λf für alle λ ∈ IR differenzierbar in x0 , und es gilt (f + g)0 (x0 ) = f 0 (x0 ) + g 0 (x0 ) und (λf )0 (x0 ) = λf 0 (x0 ). Der folgende Satz enthält die Übertragung der Kettenregel: ◦ Satz 22.26. (Kettenregel) Sei f : IRn ⊃ D → IRm differenzierbar in x0 ∈D ◦ und g : IRm ⊃ D̃ → IRk differenzierbar in y 0 := f (x0 ) ∈D̃. Dann ist h := g ◦ f differenzierbar in x0 , und es ist (g ◦ f )0 (x0 ) = g 0 (f (x0 )) · f 0 (x0 ). Man erhält also die Funktionalmatrix von g◦f in x0 als Produkt der Jacobi Matrizen von g (an der Stelle f (x0 )) und von f (an der Stelle x0 ). Beweis: (ähnlich dem Fall n = m = k = 1): Es sei 1 0 0 0 0 0 0 (g(y) − g(y ) − g (y )(y − y )), y 6= y g̃(y) := ky − y k 0, y = y0. Dann gilt lim0 g̃(y) = 0 und y→y g(y) − g(y 0 ) = g 0 (y 0 )(y − y 0 ) + ky − y 0 kg̃(y), und für y = f (x) h(x) − h(x0 ) = g 0 (f (x0 ))(f (x) − f (x0 )) + kf (x) − f (x0 )kg̃(f (x)). Daher folgt für x 6= x0 im Falle k = 1 (sonst komponentenweise) |h(x) − h(x0 ) − g 0 (f (x0 )) f 0 (x0 )(x − x0 )| kx − x0 k f (x) − f (x0 ) − f 0 (x0 )(x − x0 ) kf (x) − f (x0 )k = g 0 (f (x0 )) + g̃(f (x)) 0 0 kx − x k kx − x k kf (x) − f (x0 ) − f 0 (x0 )(x − x0 )k ≤ kg 0 (f (x0 ))k kx − x0 k kf (x) − f (x0 ) − f 0 (x0 )(x − x0 )k 0 0 + + kf (x )k |g̃(f (x))| → 0 kx − x0 k 18 KAPITEL 22. FUNKTIONEN VON MEHREREN VERÄNDERLICHEN für x → x0 . Die folgenden Beispiele zeigen Anwendungen der Kettenregel: Beispiel 22.27. Ist f : IRn ⊃ D → IR differenzierbar in dem Gebiet D und gilt ∇f (x) = 0 für alle x ∈ D, so ist f konstant in D. Sei nämlich x0 ∈ D beliebig gewählt. Zu y 0 ∈ D wählen wir eine differenzierbare Kurve x : [0, 1] → IRn mit x(0) = x0 und x(1) = y 0 , die ganz in D verläuft. Dann ist φ : [0, 1] → IR, φ(t) := f (x(t)), stetig differenzierbar mit φ0 (t) = grad f (x(t)) ẋ(t) = 0 für alle t ∈ [0, 1], und daher folgt f (x0 ) = φ(0) = φ(1) = f (y 0 ). 2 ◦ Beispiel 22.28. (Berechnung der Richtungsableitung) Ist f : IRn ⊃D→ IR differenzierbar in x0 , so gilt für khk2 = 1 ∂ d 1 f (x0 ) = lim (f (x0 + th) − f (x0 )) = (f ◦ g)(t) , t→0 t ∂h dt t=0 wobei g : IR1 → IRn , g(t) := x0 + th gilt. Nach der Kettenregel erhält man d (f ◦ g)(0) = f 0 (x0 ) · g 0 (0) = grad f (x0 ) · h, dt d.h. ∂ f (x0 ) = grad f (x0 ) · h. ∂h Wir hatten diese Formel schon in Satz 22.22. direkt gezeigt. Beispiel 22.29. (Geometrische Deutung des Gradienten) ◦ Sei wieder f : IRn ⊃ D → IR differenzierbar in x0 ∈D. Es sei N (x0 ) := {x ∈ D : f (x) = f (x0 )} die Niveaumenge von f in x0 . Ist x : [0, 1] → IRn eine Kurve, die ganz in N (x0 ) verläuft, mit x(0) = x0 , so gilt f (x(t)) = f (x0 ) = const für alle t, und nach der Kettenregel ist grad f (x(t)) ẋ(t) = 0 für alle t, insbesondere also grad f (x0 ) ẋ(0) = 0. Abbildung 22.9 2 22.5. KRUMMLINIGE KOORDINATEN 19 Der Gradient von f in x0 steht also senkrecht auf der Niveaumenge N (x0 ) von f in x0 . Der Gradient von f gibt die Richtung des steilsten Anstiegs des Graphen von f an, denn die Steigung von f in Richtung h 6= 0 wird durch die Richtungsableitung ∂ f (x0 ) = grad f (x0 ) h ∂h gegeben, wobei h ein Vektor der Euklidischen Länge 1 ist. Nach der Cauchy Schwarzschen Ungleichung gilt | ∂ f (x0 )| ≤ k∇f (x0 )k2 ∂h für alle h mit khk2 = 1. ∇f (x0 ) ∂ ∂ , so folgt f (x0 ) = k∇f (x0 )k2 , und f (x0 ) ist 0 k∇f (x )k2 ∂h ∂h ∇f (x0 ) ∂ maximal. Wählt man h := − , so folgt f (x0 ) = −k∇f (x0 )k2 , und 0 k∇f (x )k2 ∂h ∂ f (x0 ) ist minimal. ∂h Daß ∇f (x0 ) in Richtung des stärksten Anstiegs weist und damit −∇f (x0 ) in Rich- Wählt man h := tung des steilsten Abstiegs, kann zur numerischen Berechnung von lokalen Minima 2 von f benutzt werden. 22.5 Krummlinige Koordinaten In den Anwendungen lassen sich die Probleme häufig leichter als in kartesischen Koordinaten in krummlinigen Koordinaten beschreiben wie z.B. Polarkoordinaten in der Ebene (rotationssymmetrische Probleme), Zylinderkoordinaten in IR3 (zur z-Achse symmetrische Probleme) oder Kugelkoordinaten in IR3 . Beispiel 22.30. Die Anfangswertaufgabe in Polarkoordinaten ṙ = 0, ϕ̇ = ω0 , r(0) = r0 , ϕ(0) = 0 beschreibt offensichtlich eine gleichförmige Kreisbewegung r ≡ r0 , ϕ = ω0 t. In kartesischen Koordinaten x1 = r cos ϕ, x2 = r sin ϕ 20 KAPITEL 22. FUNKTIONEN VON MEHREREN VERÄNDERLICHEN gilt ẋ1 = ṙ cos ϕ + r(− sin ϕ)ϕ̇ = −ω0 x2 ẋ2 = ṙ sin ϕ + r(cos ϕ)ϕ̇ = ω0 x1 . Die beschreibende Anfangswertaufgabe lautet also in kartesischen Koordinaten 0 −ω0 r ẋ = x, x(0) = 0 , ω0 0 0 und diesem System sieht man (jedenfalls wenn man keine Übung hat) die Gestalt 2 der Lösung nicht sofort an. Abbildung 22.10 Koordinatentransformation Allgemein sei eine C 1 -Funktion f : IRn ⊃ D → IR gegeben. Wir wollen diese in den (krummlinigen) Koordinaten u1 , . . . , un darstellen und die Funktionalmatrizen bzgl. der ursprünglichen und der neuen Koordinaten ineinander umrechnen. Der Zusammenhang zwischen den krummlinigen und den ursprünglichen Koordinaten werde beschrieben durch x = Φ(u), wobei Φ : U → V (U, V ⊂ IRn offen) eine stetig differenzierbare Funktion ist. Für u0 ∈ U sei die Funktionalmatrix Φ0 (u0 ) regulär. Wir werden später (im Satz über die lokale Umkehrbarkeit) noch sehen, daß es dann Umgebungen (o.B.d.A.) U von u0 und (o.B.d.A.) V von x0 = Φ(u0 ) gibt, so daß Φ : U → V bijektiv ist und die inverse Abbildung Φ−1 : V → U ebenfalls stetig differenzierbar ist. Mit der Kettenregel erhält man durch Differentiation der Identität u = Φ−1 (Φ(u)) E = DΦ−1 (Φ(u)) · DΦ(u), x = Φ(u), 22.5. KRUMMLINIGE KOORDINATEN 21 d.h. DΦ−1 (x) = (DΦ(u))−1 , x = Φ(u). Es sei nun f˜ die Darstellung von f in den neuen Koordinaten, d.h. f˜(u) = f (x) = (f ◦ Φ)(u). Dann gilt für den Gradienten von f˜ f˜0 (u) = f 0 (Φ(u)) · Φ0 (u), und für den Gradienten von f wegen f = f˜ ◦ Φ−1 f 0 (x) = f˜0 (u) DΦ−1 (x) = f˜0 (u)(Φ0 (u))−1 , u = Φ−1 (x). Komponentenweise gilt n ∂ f˜ X ∂ ∂Φj = f· , ∂ui j=1 ∂xj ∂ui n X ∂ f˜ ∂f = gji , ∂xi j=1 ∂uj wobei (gji ) := (DΦ)−1 gesetzt ist. Da f und f˜ dieselbe Abbildung darstellen, schreibt man hierfür auch n X ∂Φj ∂ ∂ = · , ∂ui ∂xj j=1 ∂ui n X ∂ ∂ gji = . ∂xi ∂uj j=1 Im folgenden betrachten wir die Umrechnung auf einige wichtige krummlinige Koordinatensysteme. Im Falle r u= , ϕ r cos ϕ x = Φ(u) = , r sin ϕ erhält man den Übergang von kartesischen Koordinaten in der Ebene zu Polarkoordinaten. Es gilt DΦ(u) = cos ϕ −r sin ϕ , det DΦ(u) = r, sin ϕ r cos ϕ also ist DΦ regulär für r 6= 0. Wegen (DΦ)−1 cos ϕ sin ϕ 1 = 1 − sin ϕ cos ϕ r r 22 KAPITEL 22. FUNKTIONEN VON MEHREREN VERÄNDERLICHEN gilt ∂ ∂r ∂ ∂ϕ ∂ ∂x1 ∂ ∂x2 ∂ ∂ + sin ϕ ∂x1 ∂x2 ∂ ∂ = r(− sin ϕ + cos ϕ ) ∂x1 ∂x2 ∂ 1 ∂ = cos ϕ − sin ϕ ∂r r ∂ϕ ∂ 1 ∂ = sin ϕ + cos ϕ . ∂r r ∂ϕ = cos ϕ Beispiel 22.31. Die Kardioide (der geometrische Ort für die Punkte einer Ebene, die ein fester Punkt eines Kreises vom Radius a beim Abrollen auf einem anderen Kreis vom Radius a beschreibt) ist in Polarkoordinaten gegeben durch die Gleichung f˜(r, ϕ) = r + 2a(cos ϕ − 1) = 0. Wir bestimmen den Winkel, den die Tangente an die Kardioide im Punkt x0 y0 cos π2 0 := = 2a 2a sin π2 ! Abbildung 22.11 mit der x-Achse bildet. Ist die Kurve in kartesischen Koordinaten durch die Gleichung f (x, y) = 0 gegeben und kann man sie (lokal) nach y auflösen (Genaueres x s. Abschnitt 23.2), so gilt für die Kurvenpunkte y(x) g(x) : = f (x, y(x)) = 0. Nach der Kettenregel folgt g 0 (x) = d.h. im Falle ∂ ∂ f (x, y(x)) + f (x, y(x)) y 0 (x) = 0, ∂x ∂y ∂ f (x, y(x)) 6= 0 ∂y y 0 (x) = − . ∂ ∂ f (x, y(x)) f (x, y(x)). ∂x ∂y In unserem Fall ist ∂ ∂ f˜ 1 ∂ f˜ f (x, y) = cos ϕ − sin ϕ = 1, ∂x ∂r r ∂ϕ (r,ϕ)=(2a, π ) 2 22.5. KRUMMLINIGE KOORDINATEN 23 ∂ ∂ f˜ 1 ∂ f˜ f (x, y) = sin ϕ + cos ϕ = 1, ∂y ∂r r ∂ϕ (r,ϕ)=(2a, π ) 2 d.h. y 0 (0) = −1. Wir bestätigen das Ergebnis durch eine direkte Rechnung. In kartesischen Koordinaten lautet die Gleichung der Kardioide f (x, y) = q x2 + y 2 + 2a √ x − 1 = 0. x2 + y 2 Damit ergibt sich ∂f x y2 = √ 2 + 2a √ 3, ∂x x + y2 x2 + y 2 ∂f y xy = √ 2 − 2a √ 3, 2 ∂y x +y x2 + y 2 und daher ebenso y 0 (0) = − . ∂f ∂f (0, 2a) (0, 2a) = −1. 2 ∂x ∂y Entsprechend den Polarkoordinaten in IR2 werden in IR3 (z.B. bei rotationssymmetrischen Problemen) Kugelkoordinaten verwendet: Man legt (x y , z)T =: a durch den Abstand vom Nullpunkt r, den Winkel ϕ der Projektion in die x-y-Ebene mit der x-Achse und den Winkel θ der Projektion in die x-y-Ebene mit a fest. Abbildung 22.12 Eine einfache geometrische Überlegung zeigt: x = r cos θ cos ϕ y = r cos θ sin ϕ z = r sin θ √ x2 + y 2 + z 2 y , ϕ = arctan für x 6= 0 x z , θ = arctan0 √ 2 für x2 + y 2 6= 0 x + y2 , r= und 0 ≤ r, 0 ≤ ϕ < 2π, − π2 ≤ θ ≤ π . 2 Dabei ist bei der Bestimmung von ϕ für x > 0, y ≥ 0 der Hauptwert von arctan, für y < 0 der Zweig arctan1 und für x > 0, y < 0 der Zweig arctan2 zu wählen. 24 KAPITEL 22. FUNKTIONEN VON MEHREREN VERÄNDERLICHEN Für f : IR3 → IR hat man die folgenden Umrechnungsformeln für die Ableitungen: ∂ f˜ ∂f ∂x ∂f ∂y ∂f ∂z = · + · + · = ∂r ∂x ∂r ∂y ∂r ∂z ∂r ∂f ∂f ∂f = cos θ cos ϕ + cos θ sin ϕ + sin θ, ∂x ∂y ∂z ∂ f˜ ∂f ∂f = − r cos θ sin ϕ + r cos θ cos ϕ, ∂ϕ ∂x ∂y ∂ f˜ ∂f ∂f ∂f = − r sin θ cos ϕ − r sin θ sin ϕ + r cos θ. ∂θ ∂x ∂y ∂z sowie ∂ f˜ sin ϕ ∂ f˜ ∂f = cos ϕ cos θ − − ∂x ∂r r cos θ ∂ϕ ∂f ∂ f˜ cos ϕ ∂ f˜ = sin ϕ cos θ + − ∂y ∂r r cos θ ∂ϕ ∂f ∂ f˜ 1 ∂ f˜ = sin θ + cos θ . ∂z ∂r r ∂θ 1 ∂ f˜ cos ϕ sin θ , r ∂θ 1 ∂ f˜ sin ϕ sin θ , r ∂θ Beispiel 22.32. Die Gleichung der Sphäre f (x, y, z) := x2 + y 2 + (z − 1)2 − 1 = 0 lautet in Kugelkoordinaten 1 = r2 cos2 θ cos2 ϕ + r2 cos2 θ sin2 ϕ + (r sin θ − 1)2 = r2 cos2 θ + r2 sin2 θ − 2r sin θ + 1 = r2 − 2r sin θ + 1, d.h. f˜(t, ϕ, θ) := r2 − 2r sin θ = 0, bzw. r − 2 sin θ = 0. Für die Ableitung erhält man cos θ cos ϕ −r cos θ sin ϕ −r sin θ cos ϕ grad f˜(r, ϕ, θ) = grad f · cos θ sin ϕ r cos θ cos ϕ −r sin θ sin ϕ , sin θ 0 r cos θ und nach längerer Rechnung grad f˜(r, ϕθ) = 2(2 − sin θ , 0 , −r cos θ). 2 22.6. MITTELWERTSATZ DER DIFFERENTIALRECHNUNG 25 Ferner werden in IR3 für Systeme, die symmetrisch bzgl. einer Achse sind, häufig Zylinderkoordinaten verwendet. Für x, y werden Polarkoordinaten eingeführt und z wird nicht transformiert: √ x = r cos ϕ , r = x2 + y 2 y y = r sin ϕ , ϕ = arctan x z=z , z=z für x 6= 0 Abbildung 22.13 Die Umrechnung der Ableitungen verläuft dann wie für die Polarkoordinaten. 22.6 Mittelwertsatz der Differentialrechnung Wir übertragen nun den Mittelwertsatz der Differentialrechnung. Dabei betrachten wir zunächst den Fall einer reellwertigen Funktion (m = 1), für den die Formulierung fast wörtlich aus Satz ?? übernommen werden kann: Satz 22.33. (Mittelwertsatz) Es sei f : IRn ⊃ D → IR differenzierbar in der offenen Menge D. Es seien x, y ∈ D, so daß für die Verbindungsgerade gilt: {x + t(y − x) : t ∈ [0, 1]} ⊂ D Dann gibt es ein θ ∈ (0, 1), so daß gilt f (y) − f (x) = grad f (x + θ(y − x)) · (y − x). Beweis: Wir betrachten die reelle Funktion g : [0, 1] → IR, g(t) := f (x+t(y−x)). Dann ist g differenzierbar und nach der Kettenregel gilt g 0 (t) = grad f (x + t(y − x))(y − x). Daher folgt aus dem Mittelwertsatz für g mit einem θ ∈ (0, 1) g(1) − g(0) = g 0 (θ)(1 − 0), d.h. f (y) − f (x) = grad f (x + θ(y − x))(y − x). 26 KAPITEL 22. FUNKTIONEN VON MEHREREN VERÄNDERLICHEN Bemerkung 22.34. Gilt {x + t(y − x) : t ∈ [0, 1]} ⊂ D für alle x, y ∈ D (liegt also mit zwei Punkten auch stets die Verbindunggerade in D), so heißt D konvex. Für konvexe Definitionsbereiche gilt also der Mittelwertsatz für alle x, y ∈ D. 2 Bemerkung 22.35. In Satz 22.33. kann man in allen Komponenten des Urbildvektors dasselbe θ wählen. Für differenzierbares f : IRn ⊃ D → IRm ist jede Komponente fj : IRn ⊃ D → IR, j = 1, . . . , m, differenzierbar. Nach Satz 22.33. gibt es zu x, y ∈ D mit x + t(y − x) ∈ D für alle t ∈ [0, 1] ein θj ∈ (0, 1) mit fj (y) − fj (x) = fj0 (x + θj (y − x))(y − x). Die θj , j = 1, . . . , m, sind aber i.a. verschieden, so daß i.a. für alle θ ∈ (0, 1) f (y) − f (x) 6= f 0 (x + θ(y − x))(y − x) 2 gilt. Beispiel 22.36. Die Funktion ex · cos y g : IR → IR , g(x, y) = x e · sin y 2 2 zeigt, daß der Mittelwertsatz in der Gestalt von Satz 22.33. nicht gilt, wenn die Dimension des Bildraums größer als 1 ist. Es ist g 0 (x, y) = ex cos y −ex sin y , ex sin y ex cos y also det g 0 (x, y) = e2x > 0 für alle (x , y)T ∈ IR2 . Für (0 , 0)T und (0 , 2π)T ist aber g(0, 2π) − g(0, 0) = 0 0 6= g 0 (ξ, η) , 0 2π da g 0 regulär in ganz IR2 ist. Für vektorwertige Funktionen gilt die folgende schwächere Version. 2 22.7. DIVERGENZ, ROTATION 27 Satz 22.37. (Mittelwertsatz) Es sei f : IRn ⊃ D → IRm in der offenen Menge D differenzierbar, und es seien x, y ∈ D, so daß {x + t(y − x) : t ∈ [0, 1]} ⊂ D. Dann gilt f (y) − f (x) = 1 Z f 0 (x + t(y − x))(y − x)dt (22.1) 0 und kf (y) − f (x)k ≤ max kf 0 (x + t(y − x))k · ky − xk. 0≤t≤1 (22.2) Beweis: (22.1) ist klar, da φ(t) : = fi (x + t(y − x)) eine Stammfunktion von fi0 (x + t(y − x))(y − x) ist. (22.2) erhält man aus (22.1) wegen R1 kf (y) − f (x)k = k f 0 (x + t(y − x))(y − x)dtk 0 ≤ Z1 kf 0 (x + t(y − x))(y − x)kdt 0 ≤ max kf 0 (x + t(y − x))k · ky − xk. 0≤t≤1 22.7 Divergenz, Rotation Wir führen nun zwei für die Anwendungen wichtige Differentialoperatoren ein. Eine Abbildung f : IRn ⊃ D → IRn heißt Vektorfeld. Beispiele für Vektorfelder sind das Geschwindigkeits- oder Beschleunigungsfeld einer strömenden Flüssigkeit oder der Temperaturgradient in einem Körper. Definition 22.38. Ist f : IRn ⊃ D → IRn ein C 1 −Vektorfeld, so heißt 0 div f (x ) := n X ∂fi i=1 ∂xi (x0 ) die Divergenz von f an der Stelle x0 (es wird also jede Koordinatenfunktion fi nach ihrer Raumkoordinate xi differenziert und dann aufsummiert). 28 KAPITEL 22. FUNKTIONEN VON MEHREREN VERÄNDERLICHEN Mit dem Nabla-Operator kann man die Divergenz des Vektorfeldes f auch schreiben als div f = h∇, f i = ∇ · f , wobei h·, ·i bzw. “·” das Skalarprodukt des formalen Vektors ∇ mit dem Vektor f bezeichnet. Beispiel 22.39. Die Bedeutung der Divergenz erläutern wir an einem Beispiel. Es sei v : IR3 → IR3 das Geschwindigkeitsfeld einer strömenden Flüssigkeit. Ist F ein kleines, ebenes Flächenstück und x0 ein Punkt in F , so fließt durch F pro Zeiteinheit näherungsweise die Flüssigkeitsmenge hv(x0 ), ni · µ(F ) hindurch, wobei n den Einheitsnormalenvektor und µ(F ) den Flächeninhalt von F bezeichnet. Abbildung 22.14 Es sei nun W := {x ∈ IR3 : −h + x0i ≤ xi ≤ x0i + h, i = 1, 2, 3} ein achsenparalleler Würfel der Kantenlänge 2h in der strömenden Flüssigkeit. Dann ist die Gesamtmenge der Flüssigkeit, die aus dem Würfel herausfließt, näherungsweise M (h) = 4h2 v1 (x01 + h, x02 , x03 ) − v1 (x01 − h, x02 , x03 ) + v2 (x01 , x02 + h, x03 ) − v2 (x01 , x02 − h, x03 ) + v3 (x01 , x02 , x03 + h) − v3 (x01 , x02 , x03 − h) . Dividiert man diesen Ausdruck durch das Volumen V (h) = 8h3 von W und läßt man h gegen 0 gehen, so erhält man M (h) = div v(x0 ), h→0 V (h) lim und dies ist die Quellstärke pro Volumeneinheit. Ist div v(x0 ) > 0, so enthält das Feld in x0 eine Quelle, ist div v(x0 ) < 0, so enthält das Feld in x0 eine Senke, ist div v(x) = 0 für alle x, so heißt das Feld quellen- und senkenfrei. 2 22.7. DIVERGENZ, ROTATION 29 Beispiel 22.40. Das Gravitationsfeld eines (in x0 = 0 liegenden) Massenpunktes beträgt f (x) = c x 3 mit einer Konstanten c, d.h. kxk2 cx2 cx3 cx1 , 2 , 2 f (x1 , x2 , x3 ) = 2 3/2 2 3/2 2 2 2 (x1 + x2 + x3 ) (x1 + x2 + x3 ) (x1 + x22 + x23 )3/2 T . Es gilt 3 q 2 ∂f1 c 2 2 2 3/2 2 2 · 2x + x + x x = x (x + x + x ) − 1 1 3 2 1 1 2 3 ∂x1 (x21 + x22 + x23 )3 2 r2 − 3x21 = c , r5 und genauso r2 − 3x22 ∂f3 r2 − 3x23 ∂f2 =c = c , , ∂x2 r5 ∂x3 r5 und daher 3r2 − 3(x21 + x22 + x23 ) = 0. r5 Das Gravitationsfeld ist also außerhalb des Massenpunktes in 0 quellen- und sendiv f (x) = c 2 kenfrei. Für f : IRn ⊃ D → IRn und g : IRn ⊃ D → IR gilt für das Vektorfeld f · g : D → IRn div (g · f ) = n X Di (g · fi ) = i=1 n X (Di g · fi + gDi fi )) i=1 = h∇g, f i + g div f . Speziell gilt für r(x) := kxk2 div ( 1 x 1 ) = h∇ , xi + div x r(x) r(x) r(x) x 1 1 = h− 3 , xi + n = (n − 1) . r (x) r(x) r(x) Die Divergenz ist für C 1 −Vektorfelder f : IRn → IRn beliebiger Dimension n definiert, und durch sie wird dem Vektorfeld f in jedem Punkt x ein Skalar div f (x) ∈ IR zugeordnet. Die nun folgende Rotation ist nur für die Vektorfelder f : IR3 → IR3 definiert. Sie ordnet f in jedem Punkt x ∈ IR3 einen Vektor rot f zu. Definition 22.41. Es sei f : IR3 ⊃ D → IR3 ein differenzierbares Vektorfeld. Dann heißt rot f (x0 ) := ( ∂f3 0 ∂f2 0 ∂f1 0 ∂f3 0 ∂f2 0 ∂f1 0 T (x ) − (x ) , (x ) − (x ) , (x ) − (x )) ∂x2 ∂x3 ∂x3 ∂x1 ∂x1 ∂x2 die Rotation von f an der Stelle x0 . 30 KAPITEL 22. FUNKTIONEN VON MEHREREN VERÄNDERLICHEN Mit dem Nabla-Operator kann man die Rotation auch schreiben als rot f = ∇ × f . Beispiel 22.42. Die Bedeutung der Rotation erläutern wir wieder an einem Beispiel: Wir betrachten die Rotationsbewegung eines starren Körpers um eine Achse. Dann besteht zwischen der Geschwindigkeit v eines Punktes , dem Ortsvektor r und der Winkelgeschwindigkeit ω (die unabhängig vom Ort ist) die Beziehung v = ω × r. Wir berechnen die Rotation von v. Zunächst gilt ω2 x3 − ω3 x2 ω × r = ω3 x1 − ω1 x3 , ω1 x2 − ω2 x1 und daher folgt rot v = rot (ω × r) D2 (ω1 x2 − ω2 x1 ) − D3 (ω3 x1 − ω1 x3 ) = −D1 (ω1 x2 − ω2 x1 ) + D3 (ω2 x3 − ω3 x2 ) = 2ω. D1 (ω3 x1 − ω1 x3 ) − D2 (ω2 x3 − ω3 x2 ) Die Rotation des Vektorfeldes v ist also proportional der Winkelgeschwindigkeit der Drehbewegung. 2 Der Differentialoperator “rot ” tritt z.B. in der Mechanik bei der Behandlung von strömenden Flüssigkeiten auf. Es werden dort so kleine Volumenelemente betrachtet, daß man für sie die Voraussetzungen für einen starren Körper als erfüllt ansehen kann. Ist rot v = 0, so spricht man von einem wirbelfreien Vektorfeld, im Falle rot v 6= 0 von einem Wirbelfeld. 22.8 Höhere Ableitungen Wir betrachten nur den Fall f : IRn ⊃ D → IR einer reellwertigen Funktion. Die Übertragung auf vektorwertige Funktionen erhält man, indem man die Komponenten einzeln betrachtet. 22.8. HÖHERE ABLEITUNGEN 31 Definition 22.43. Es sei D ⊂ IRn eine offene Menge. Existiert die partielle Ableitung Di f für alle x ∈ D, so ist Di f : IRn ⊃ D → IR wieder eine Funktion. Besitzt diese eine partielle Ableitung nach xj , so schreiben wir hierfür ∂ ∂ ∂2 Dj Di f = f =: f ∂xj ∂xi ∂xj ∂xi und nennen sie zweite partielle Ableitung von f . Existieren alle partiellen Ableitungen zweiter Ordnung, so nennen wir f zweimal partiell differenzierbar. Sind alle Dj Di f stetig, so nennen wir f zweimal stetig partiell differenzierbar und schreiben f ∈ C 2 , genauer f ∈ C 2 (D). Entsprechend sind partielle Ableitungen höherer Ordnung und die Bezeichnungen f ∈ C k , k ≥ 3, definiert. Wir führen die folgende Schreibweise ein: Di2 f := Di Di f , oder allgemein Dik f := Di (Dik−1 f ), k ≥ 2. Beispiel 22.44. f (x1 , x2 , x3 ) = x31 + x1 x2 x3 besitzt z.B. die partiellen Ableitungen D1 D2 f (x) = x3 = D2 D1 f (x), D22 f (x) = 0, D13 f (x) = 6. 2 Eine Funktion von zwei Veränderlichen hat vier partielle Ableitungen zweiter Ordnung D12 f, D1 D2 f, D2 D1 f, D22 f und acht partielle Ableitungen dritter Ordnung D13 f, D12 D2 f, D1 D2 D1 f, D2 D12 f, D1 D22 f, D2 D1 D2 f, D22 D1 f, D23 f. Allgemein besitzt eine Funktion von n Veränderlichen nk partielle Ableitungen k-ter Ordnung. Für f ∈ C k stimmen aber alle diejenigen Ableitungen bis zur k-ten Ordnung überein, die die gleichen Ableitungssymbole (nur in verschiedener Reihenfolge) enthalten, z.B. D2 D1 f = D1 D2 f , D12 D2 f = D1 D2 D1 f = D2 D12 f . Dies folgt aus Satz 22.45. (Satz von H.A. Schwarz) f : IRn ⊃ D → IR sei zweimal stetig differenzierbar. Dann gilt Di Dj f = Dj Di f für alle i, j ∈ {1, . . . , n}. 32 KAPITEL 22. FUNKTIONEN VON MEHREREN VERÄNDERLICHEN Beweis: Wir können o.B.d.A. n = 2, i = 1, j = 2 annehmen (die übrigen Komponenten x3 , . . . , xn sind beim Differenzieren nach x1 und x2 nur als Parameter zu betrachten). Die natürliche Beweisidee, D1 D2 f und D2 D1 f als Grenzwerte von Differenzenquotienten auszurechnen und zu vergleichen, führt zum Ziel, ist aber sehr aufwendig. Kürzer (aber vielleicht nicht so einsichtig) ist der folgende Beweis: Nach dem Mittelwertsatz, angewandt auf die Funktion g(t) := f (t, x2 + h2 ) − f (t, x2 ) bzw. h(t) := f (x1 + h1 , t) − f (x1 , t) gilt mit θ1 , θ2 ∈ (0, 1) f (x1 + h1 , x2 + h2 ) − f (x1 , x2 + h2 ) − f (x1 + h1 , x2 ) + f (x1 , x2 ) = D2 f (x1 + h1 , x2 + θ2 h2 ) − D2 f (x1 , x2 + θ2 h2 ) h2 = D1 f (x1 + θ1 h1 , x2 + h2 ) − D1 f (x1 + θ1 h1 , x2 ) h1 . Wendet man hierauf noch einmal den Mittelwertsatz an, so folgt mit θ3 , θ4 ∈ (0, 1) für h1 , h2 6= 0 1 f (x1 + h1 , x2 + h2 ) − f (x1 , x2 + h2 ) − f (x1 + h1 , x2 ) + f (x1 , x2 ) h1 h2 = D1 D2 f (x1 + θ3 h1 , x2 + θ2 h2 ) = D2 D1 f (x1 + θ1 h1 , x2 + θ4 h2 ), und der Grenzübergang (h1 , h2 ) → (0, 0) liefert die Behauptung. Als Folgerung aus Satz 22.45. erhält man Korollar 22.46. Ist f eine C k -Funktion, so kann die Reihenfolge der partiellen Ableitungen bis zur k-ten Ordnung beliebig vertauscht werden. Bemerkung 22.47. Ist das C 1 -Vektorfeld gegeben durch f : IR3 ⊃ D → IR3 , f (x) = ∇F (x), mit einer C 2 -Funktion F : D → IR, so gilt nach Satz 22.45. D2 f3 − D3 f2 D2 D3 F − D3 D2 F rot f = D3 f1 − D1 f3 = D3 D1 F − D1 D3 F = 0. D1 f2 − D2 f1 D1 D2 F − D2 D1 F 2 22.8. HÖHERE ABLEITUNGEN 33 Definition 22.48. Besteht zwischen dem Vektorfeld f : D → IR3 und der skalaren Funktion F : D → IR die Beziehung f = ∇F so heißt F ein Potential von f . Besitzt f ein Potential F , so gilt also rot f = 0, d.h. rot (∇F ) = 0 für alle C 2 Funktionen F : IR3 ⊃ D → IR (in einigen Büchern findet man hierfür auch die nicht ganz saubere Schreibweise rot (grad F ) = 0). Unter gewissen Voraussetzungen gilt auch die Umkehrung hiervon. Wir kommen darauf zurück. Beispiel 22.49. Das Vektorfeld x2 + y 2 3 3 f : IR → IR , f (x, y, z) := y + z , z2 + x besitzt sicher kein Potential, denn rot f )1 = D2 f3 − D3 f2 = −1 6= 0. 2 Beispiel 22.50. Das Vektorfeld y 2 + 2xz 2 3 3 f : IR → IR , f (x, y, z) := z + 2xy , x2 + 2yz erfüllt D2 f3 − D3 f2 2z − 2z D f − D f 2x − 2x = 0. rot f = = 3 1 1 3 2y − 2y D1 f2 − D2 f1 Die notwendige Bedingung ist also erfüllt. Wenn f ein Potential F besitzt, so gilt ∂F = y 2 + 2xz ∂x ⇒ F (x, y, z) = xy 2 + zx2 + φ(y, z) mit einer Funktion φ. Für diese muß ∂F ∂φ = z 2 + 2xy = 2xy + , ∂y ∂y d.h. ∂φ = z2 ∂y 34 KAPITEL 22. FUNKTIONEN VON MEHREREN VERÄNDERLICHEN gelten. Daher folgt mit einer Funktion ψ φ(y, z) = yz 2 + ψ(z), d.h. F (x, y, z) = xy 2 + zx2 + yz 2 + ψ(z), und für ψ erhält man die Bedingung ∂F = x2 + 2yz = x2 + 2yz + ψ 0 (z), ∂z d.h. ψ 0 (z) ≡ 0. Wenn also f ein Potential besitzt, so muß dieses gegeben sein durch F (x, y, z) = xy 2 + zx2 + yz 2 + C, C ∈ IR. Daß dies tatsächlich ein Potential von f ist, erhält man durch Differenzieren. 2 Bemerkung 22.51. Ist f : IR3 ⊃ D → IR3 ein C 2 -Vektorfeld, so gilt wie oben div (rot f ) = div (D2 f3 − D3 f2 , D3 f1 − D1 f3 , D1 f2 − D2 f1 )T = D1 D2 f3 − D1 D3 f2 + D2 D3 f1 − D2 D1 f3 + D3 D1 f2 − D3 D2 f1 = 0 2 Bemerkung 22.52. Besitzt das Vektorfeld f : IRn ⊃ D → IRn ein Potential F und hat f keine Quellen und Senken, so gilt für das Potential ∆F := n X Dj2 F = div (∇F ) = div f = 0. j=1 2 Definition 22.53. Der Differentialoperator ∆ := n ∂2 P ∂x2j tor, die Gleichung ∆F = 0 heißt Potentialgleichung. heißt Laplace Opera- j=1 Wir rechnen den Laplace Operator im Falle n = 2 auf Polarkoordinaten um. Zunächst gilt ∂F ∂F ∂r ∂F ∂φ ∂F ∂F ∂r ∂F ∂φ = · + · , = · + · , ∂x ∂r ∂x ∂φ ∂x ∂y ∂r ∂y ∂φ ∂y und daher ∂ ∂F ∂r ∂F ∂φ ∂ ∂F ∂r ∂F ∂φ · + · + · + · ∂x ∂r ∂x ∂φ ∂x ∂y ∂r ∂y ∂φ ∂y ∂ 2 F ∂r 2 ∂r 2 ∂ 2 F ∂r ∂φ ∂r ∂φ = + + 2 · + · ∂r2 ∂x ∂y ∂r∂φ ∂x ∂x ∂y ∂y ∂ 2 F ∂φ 2 ∂φ 2 ∂F ∂F + + · ∆r + · ∆φ + 2 ∂φ ∂x ∂y ∂r ∂φ ∂2F 1 ∂F 1 ∂2F = + + . ∂r2 r ∂r r2 ∂φ2 ∆F = 22.9. DER SATZ VON TAYLOR 35 Ähnlich ergibt sich für die Umrechnung auf Kugelkoordinaten im IR3 ∆F = 22.9 ∂2F 1 ∂2F ∂2F 2 ∂F 1 ∂F + + · tan θ . + · − ∂r2 r ∂r r2 ∂φ2 cos2 θ ∂θ2 ∂θ Der Satz von Taylor Wir dehnen nun die Approximation einer Funktion durch das Taylorpolynom auf Funktionen von mehreren Veränderlichen aus. Satz 22.54. (Satz von Taylor) Es sei f : IRn ⊃ D → IR eine C k -Funktion auf der offenen Menge D. Dann gibt es zu jedem x0 ∈ D eine Umgebung U (x0 ) ⊂ D, so daß für alle x ∈ U (x0 ) gilt f (x) = Tk (x; x0 ) + Rk (x; x0 ), wobei Tk (x; x0 ) = j 0 T [(x − x ) ∇] f j! k X 1 (22.3) x0 das k-te Taylorpolynom von f für den Entwicklungspunkt x0 ist und für das j=0 Restglied Rk (x; x0 ) gilt: Rk (x; x0 ) lim k = 0. x→x0 kx − x0 k Ist f eine C k+1 -Funktion, so hat Rk (x; x0 ) die folgende Darstellung: 1 [(x − x0 )T ∇]k+1 f Rk (x; x0 ) = 0 (k + 1)! x +θ(x−x0 ) (22.4) mit einem θ ∈ (0, 1). (22.4) heißt Lagrangesche Restgliedformel. Bemerkung 22.55. Der Differentialoperator [(x − x0 )T ∇]j ist folgendermaßen zu bilden: [(x − x ) ∇] f 0 T j y = n X i=1 (xi − x0i ) ∂ j f ∂xi y wird formal ausmultipliziert, die partiellen Ableitungen von f werden berechnet, und anschließend wird für x (nur in den Ableitungen von f ) der Wert y eingesetzt. 2 36 KAPITEL 22. FUNKTIONEN VON MEHREREN VERÄNDERLICHEN Beispiel 22.56. (n = 2) [(x − x0 )T ∇]0 f = f (y) y ∂f ∂f (y) + (x2 − x02 ) (y) y ∂x1 ∂x2 ∂ ∂ 2 = (x1 − x01 ) + (x2 − x02 ) f [(x − x0 )T ∇]2 f y ∂x1 ∂x2 y [(x − x0 )T ∇]1 f = (x1 − x01 ) ∂2f ∂2f 0 0 = (x1 − (y) + 2(x1 − x1 )(x2 − x2 ) (y) ∂x21 ∂x1 ∂x2 2 0 2∂ f (y). 2 + (x2 − x2 ) ∂x22 x01 )2 Beweis: Zu x0 ∈ D gibt es eine ε-Kugel Kε (x0 ), die in D enthalten ist. Wir definieren zu x ∈ Kε (x0 ) die reelle Funktion φ : (−δ, 1 + δ) → IR, φ(t) := f (x0 + t(x − x0 )), wobei δ > 0 so klein gewählt ist, daß {x0 + t(x − x0 )) : −δ ≤ t ≤ 1 + δ} in D enthalten ist. Mit f ist φ eine C k - (bzw. C k+1 -) Funktion, und es gilt φ0 (t) = n X (xi − x0i ) i=1 00 φ (t) = n h X (xi − ∂ f (x0 + t(xi − x0i )) = [(x − x0 )T ∇]f 0 , x +t(x−x0 ) ∂xi x0i ) i=1 = n X (xj − x0j ) j=1 (xi − x0i ) i=1 = n X i ∂2f (x0 + t(x − x0 )) ∂xi ∂xj 0 ∂ (xj − xj ) f ∂xj j=1 n ∂ X ∂xi [(x − x0 )T ∇]2 f x0 +t(x−x0 ) x0 +t(x−x0 ) und allgemein φ(j) (t) = [(x − x0 )T ∇]j f x0 +t(x−x0 ) . Der Taylorsche Satz für die reelle Funktion φ (mit Lagrangeschen Restglied) liefert dann die Behauptung f (x) = φ(1) = k X 1 j=0 = j! φ(j) (0) + Rk [(x − x0 )T ∇]j f j! k X 1 j=0 + Rk (x; x0 ). x0 22.9. DER SATZ VON TAYLOR 37 Beispiel 22.57. Wir bestimmen das Taylorpolynom vom Grade 2 von f (x) := x2 x23 ex1 mit dem Entwicklungspunkt x0 = (0, 2, 1)T . f (x) = x2 x23 ex1 f (x0 ) = 2 D1 f (x) = x2 x23 ex1 D1 f (x0 ) = 2 D2 f (x) = x23 ex1 D2 f (x0 ) = 1 D3 f (x) = 2x2 x3 ex1 D3 f (x0 ) = 4 D12 f (x) = x2 x23 ex1 D12 f (x0 ) = 2 D22 f (x) = 0 D22 f (x0 ) = 0 D32 f (x) = 2x2 ex1 D32 f (x0 ) = 4 D1 D2 f (x) = x23 ex1 D1 D2 f (x0 ) = 1 D1 D3 f (x) = 2x2 x3 ex1 D1 D3 f (x0 ) = 4 D2 D3 f (x) = 2x3 ex1 D2 D3 f (x0 ) = 2. Es ist [(x − x0 )T ∇] = x1 D1 + (x2 − 2)D2 + (x3 − 1)D3 [(x − x0 )T ∇]2 = x21 D12 + (x2 − 2)2 D22 + (x3 − 1)2 D32 + 2x1 (x2 − 2)D1 D2 + 2x1 (x3 − 1)D1 D3 + 2(x2 − 2)(x3 − 1)D2 D3 , und daher T2 (x; x0 ) = 2 + 2x1 + 1(x2 − 2) + 4(x3 − 1) + x21 + 0(x2 − 2)2 + 2(x3 − 1)2 + 1x1 (x2 − 2) + 4x1 (x3 − 1) + 2(x2 − 2)(x3 − 1). 2 Bemerkung 22.58. Das approximierende Taylor-Polynom zweiten Grades T2 (x; x0 ) kann mit dem Gradienten Df (x0 ) und der Matrix D2 f (x0 ) := (Di Dj f (x0 ))i,j=1...,n in die folgende Form gebracht werden: f (x) = 1 2 0 T f (x ) + [(x − x ) ∇]f x0 + [(x − x ) ∇] f 0 T 0 2 = f (x0 ) + n X x0 + R2 (x; x0 ) Dj f (x0 )(xj − x0j ) j=1 + n 1 X 2 i,j=1 Di Dj f (x0 )(xi − x0i )(xj − x0j ) + R2 (x; x0 ) 1 =: f (x0 ) + Df (x0 )(x − x0 ) + (x − x0 )T D2 f (x0 )(x − x0 ) 2 0 + R2 (x; x ). 38 KAPITEL 22. FUNKTIONEN VON MEHREREN VERÄNDERLICHEN 2 Definition 22.59. Die Matrix D2 f (x0 ) := (Di Dj f (x0 ))i,j=1...,n heißt Hesse Matrix von f im Punkte x0 . Nach dem Satz 22.45. von H.A. Schwarz ist D2 f (x0 ) symmetrisch. Bemerkung 22.60. Nach Satz 22.45. stimmen in [(x − x0 )T ∇]j f die gemischten Ableitungen mit gleichen Symbolen überein. Faßt man diese zusammen, so geht die Darstellung (22.3), (22.4) des Taylorpolynoms und des Restgliedes im Falle n = 2 über in f (x) = j k X 1X j i j=0 j! i=0 D1j−i D2i f (x0 )(x1 − x01 )j−i (x2 − x02 )i k+1 X k+1 1 D1k+1−i D2i f (x0 + θ(x − x0 ))(x1 − x01 )k+1−i (x2 − x02 )i . 2 + i (k + 1)! i=0 Bemerkung 22.61. Ist eine Schranke M für alle partiellen Ableitungen der Ordnung k + 1 bekannt, so kann man den Fehler (sehr grob) abschätzen durch |Rk (x; x0 )| ≤ nk+1 k+1 M kx − x0 k∞ . (k + 1)! 2 Bemerkung 22.62. Ist f beliebig oft differenzierbar, so heißt j 0 T [(x − x ) ∇] f j! ∞ X 1 j=0 x0 die Taylorreihe von f mit dem Entwicklungspunkt x0 . Wie im Falle einer unabhängigen Variablen braucht die Taylorreihe nicht zu konvergieren, und, wenn sie konvergiert, braucht der Grenzwert nicht mit f (x) übereinzustimmen. 2 Kapitel 23 Anwendungen der Differentialrechnung 23.1 Auflösung nichtlinearer Gleichungssysteme Wir betrachten das nichtlineare Gleichungssystem in n Variablen f (x) = 0, (23.1) wobei f : IRn ⊃ D → IRn gegeben ist. Die Existenz einer Lösung von (23.1) kann man sichern, indem man (23.1) in ein Fixpunktproblem überführt, z.B. in x = φ(x) := x − Af (x) (23.2) mit einer beliebigen regulären Matrix A ∈ IR(n,n) , und den Fixpunktsatz für kontrahierende Abbildungen anwendet. Satz 23.1. (Fixpunktsatz für kontrahierende Abbildungen) Es sei D ⊂ IRn eine abgeschlossene Menge und φ : D → IRn eine Abbildung mit φ(D) ⊂ D. φ sei kontrahierend bzgl. einer Norm k · k, d.h. es gibt ein q ∈ [0, 1), mit kφ(x) − φ(y)k ≤ qkx − yk für alle x, y ∈ D. (23.3) 40 KAPITEL 23. ANWENDUNGEN DER DIFFERENTIALRECHNUNG Dann gilt (i) φ besitzt genau einen Fixpunkt x̂ ∈ D. (ii) Für jeden Startwert x0 ∈ D konvergiert die durch xm+1 := φ(xm ) definierte Folge gegen x̂. (iii) Es gelten die Fehlerabschätzungen qm kx1 − x0 k (a priori) 1−q q kxm − x̂k ≤ kxm − xm−1 k (a posteriori). 1−q kxm − x̂k ≤ Der Beweis wird genauso geführt wie der von Satz ?? (vgl. Bemerkung ?? auf Seite ??). Die Kontraktionsbedingung (23.3) kann man mit Hilfe von Satz 23.2. überprüfen. Satz 23.2. Es sei D ⊂ IRn eine konvexe Menge, φ : D → IRn differenzierbar in D und k·k eine Vektornorm auf IRn . Gilt für die zugehörige Matrixnorm k·k sup{kφ0 (x)k : x ∈ D} ≤ q < 1, so ist φ kontrahierend bzgl. dieser Norm auf D mit der Kontraktionskonstante q. Beweis: Da D konvex ist, gilt für beliebige x, y ∈ D {x + t(y − x) : t ∈ [0, 1]} ⊂ D, und aus dem Mittelwertsatz folgt kφ(x) − φ(y)k ≤ sup{kφ0 (x + t(y − x))k : t ∈ [0, 1]} · kx − yk ≤ sup{kφ0 (z)k : z ∈ D} · kx − yk ≤ qkx − yk. Bemerkung 23.3. Der Begriff “kontrahierend” ist abhängig von der benutzten Norm. Zum Beispiel besitzt die Funktion φ : IR2 → IR2 , φ(x) := (0.7(x1 + x2 ), 0)T , 23.1. AUFLÖSUNG NICHTLINEARER GLEICHUNGSSYSTEME 41 die Ableitung φ0 (x) = 0.7 0.7 . 0 0 Wegen kφ0 (x)k1 = 0.7 < 1 ist φ kontrahierend auf IR2 bzgl. der Summennorm, √ wegen kφ0 (x)k2 = 0.98 < 1 ist φ kontrahierend auf IR2 bzgl. der Euklidischen 0 1 ,y= gilt Norm, aber für x = 0 1 kφ(x) − φ(y)k∞ −1.4 = 0 = 1.4 > kx − yk∞ , ∞ 2 d.h. φ ist nicht kontrahierend bzgl. der Maximumnorm. Beispiel 23.4. Ein diskretes Modell für die Bestimmung der stationären Temperaturverteilung einer exothermen Reaktion ist gegeben durch 1 exp(x1 ) 2 −2 x1 0 f (x1 , x2 ) = − . = −1 2 x2 0 exp(x ) 2 8 (23.4) Wir wählen in (23.2) −1 1 2 2 = 2 1 2 und erhalten das zu (23.4) äquivalente Fixpunktproblem 2 −2 A= −1 2 x1 x2 1 2 2 exp(x1 ) = φ(x) := x − Af (x) = 1 2 exp(x2 ) 16 1 2 exp(x1 ) + 2 exp(x2 ) = . 16 exp(x1 ) + 2 exp(x2 ) Es gilt √ φ1 (0, 0) = 0.25 ≥ 0 , φ1 (0.5, 0.5) = 0.25 e ≤ 0.5, √ φ2 (0, 0) = 0.1875 ≥ 0 , φ2 (0.5, 0.5) = 0.1875 e ≤ 0.5, und da beide Komponenten von φ monoton wachsend in x1 und in x2 sind, wird das abgeschlossene Quadrat x Q := { 1 x2 : 0 ≤ x1 ≤ 0.5, 0 ≤ x2 ≤ 0.5} durch φ in sich abgebildet. 1 2 exp(x1 ) 2 exp(x2 ) Wegen φ0 (x) = gilt 16 exp(x1 ) 2 exp(x2 ) 1√ e ≈ 0.412 < 1, 4 d.h. φ ist kontrahierend auf Q bzgl. der Maximumnorm. max{kφ0 (x)k∞ : x ∈ Q} = Nach dem Fixpunktsatz für kontrahierende Abbildungen besitzt φ einen eindeutigen Fixpunkt x̂ ∈ Q, den man mit der Iteration xm+1 = φ(xm ), x0 ∈ Q, bestimmen kann (s. Tabelle 23.1). 2 42 KAPITEL 23. ANWENDUNGEN DER DIFFERENTIALRECHNUNG Tabelle 23.1: Fixpunkt-Iteration m 0 5 10 11 12 13 14 15 16 17 18 32 xm 1 0.00000000000000000 0.33425874031047418 0.33480103859004705 0.33480177933901446 0.33480199110730864 0.33480205164850063 0.33480206895626757 0.33480207390428386 0.33480207531884332 0.33480207572324346 0.33480207583885505 0.33480207588513819 xm 2 0.00000000000000000 0.24707073116254351 0.24744737263739062 0.24744788704528056 0.24744803410624526 0.24744807614863684 0.24744808816788981 0.24744809160400375 0.24744809258633428 0.24744809286716701 0.24744809294745264 0.24744809297959363 Fehler-Abschätzung 9.53E − 0004 1.82E − 0006 5.19E − 0007 1.48E − 0007 4.25E − 0008 1.21E − 0008 3.47E − 0009 9.92E − 0010 2.84E − 0010 8.11E − 0011 1.98E − 0018 Die Iterationsvorschrift xm+1 = φ(xm ) = xm − Af (xm ) ⇐⇒ f (xm ) + A−1 (xm+1 − xm ) = 0 kann man so interpretieren. Bei gegebener Näherung xm für eine Nullstelle x̂ von f ersetze man f durch eine affin lineare Ersatzfunktion ψ(x) := f (xm ) + A−1 (x − xm ) und bestimme die neue Näherung für x̂ als Nullstelle der Ersatzfunktion ψ. Lokal die beste Approximation durch eine affin lineare Funktion in einer Umgebung von xm erhält man nach Definition der Ableitung durch ψ(x) = f (xm ) + f 0 (xm )(x − xm ), d.h. bei der Wahl A = f 0 (xm )−1 . Mit dieser Wahl erhält man das Newton Verfahren xm+1 := xm − f 0 (xm )−1 f (xm ). Man beachte, daß beim numerischen Rechnen niemals die Inverse f 0 (xm )−1 bestimmt wird, sondern daß das Newton Verfahren in folgender Weise ausgeführt wird: Löse das Gleichungssystem f 0 (xm )h = f (xm ). Setze xm+1 := xm − h. Das Newton Verfahren für Systeme hat ähnliche Eigenschaften wie für reelle Funktionen: Wenn für eine Nullstelle x̂ die Matrix f 0 (x̂) regulär ist und f in einer 23.1. AUFLÖSUNG NICHTLINEARER GLEICHUNGSSYSTEME 43 Tabelle 23.2: Newton-Verfahren m 0 1 2 3 4 5 xm 1 0.00000000000000000 0.31958762886597938 0.33476266558588590 0.33480207562163410 0.33480207588513819 0.33480207588513819 xm 2 0.00000000000000000 0.23711340206185567 0.24742208170317470 0.24744809280694285 0.24744809297959363 0.24744809297959363 Fehler 3.35E − 0001 1.52E − 0002 3.94E − 0005 2.64E − 0010 1.65E − 0018 1.65E − 0018 Tabelle 23.3: vereinfachtes Newton-Verfahren 1 m 0 1 2 3 4 5 6 7 8 9 10 xm 1 0.00000000000000000 0.31958762886597938 0.33342400763798989 0.33467484401362578 0.33479031282344355 0.33480098825518871 0.33480197532108848 0.33480206658682688 0.33480207502540174 0.33480207580564561 0.33480207587778818 xm 2 0.00000000000000000 0.23711340206185567 0.24652423436022370 0.24736298067704095 0.24744022662100359 0.24744736567940672 0.24744802573268153 0.24744808676184351 0.24744809240469078 0.24744809292643721 0.24744809297467871 Fehler 3.35E − 0001 1.52E − 0002 1.38E − 0003 1.27E − 0004 1.18E − 0005 1.09E − 0006 1.01E − 0007 9.30E − 0009 8.60E − 0010 7.95E − 0011 7.35E − 0012 Umgebung von x̂ genügend glatt ist, so konvergiert das Newton Verfahren lokal quadratisch, d.h. es gibt eine Umgebung U (x̂) von x̂, so daß für alle Startwerte x0 ∈ U (x̂) das Newton Verfahren gegen x̂ konvergiert, und es gilt mit einer Konstanten C > 0 : kxm+1 − x̂k ≤ Ckxm − x̂k2 für alle m ∈ IN. Das Newton Verfahren liefert im Beispiel 23.4. die Näherungen in Tabelle 23.2. Das Newton Verfahren ist recht aufwendig, da in jedem Schritt n2 Ableitungen berechnet werden müssen. Man verwendet daher häufig die folgende Iteration: f 0 (x0 )hm = f (xm ), xm+1 := xm − hm . (23.5) Es wird also nur im ersten Schritt die Ableitungsmatrix f 0 (x0 ) berechnet und in den folgenden Schritten das Gleichungssystem (23.5) (z.B. mit einer LR-Zerlegung von f 0 (x0 )) gelöst. Das Verfahren (23.5) heißt vereinfachtes Newton Verfahren. Ist x0 nicht zu weit von x̂ entfernt, so kann man für (23.5) immer noch rasche, wenn auch nicht quadratische Konvergenz erwarten. Für das Beispiel 23.4. erhält man die Werte in Tabelle 23.3 und mit besseren Startwerten die Werte in Tabelle 23.4. Der Einzugsbereich einer Nullstelle x̂ von f für das Newton Verfahren (d.h. die Menge aller Startwerte x0 , für die das Newton Verfahren gegen x̂ konvergiert) ist 44 KAPITEL 23. ANWENDUNGEN DER DIFFERENTIALRECHNUNG Tabelle 23.4: vereinfachtes Newton-Verfahren 2 m 0 1 2 3 4 5 xm 1 0.30000000000000000 0.33466236541724315 0.33480100233077214 0.33480206760155026 0.33480207582122443 0.33480207588464505 xm 2 0.25000000000000000 0.24737185874062523 0.24744752657238577 0.24744808860238371 0.24744809294582180 0.24744809297933306 Fehler 3.48E − 0002 1.40E − 0004 1.07E − 0006 8.28E − 0009 6.39E − 0011 4.93E − 0013 häufig sehr klein. Er kann manchmal durch Einführung einer Dämpfung vergrößert werden. Es sei hm := f 0 (xm )−1 f (xm ) die Verbesserung nach dem Newton Verfahren ausgehend von xm . Wir setzen xm+1 := xm − λm hm , wobei der Dämpfungsparameter λm ∈ (0, 1] so gewählt wird, daß “die Größe des Funktionswerts f mit jedem Schritt verkleinert wird”. Die Größe von f (x) messen wir mit der Testfunktion g(x) := kf (x)k22 . Wir wählen also λm ∈ (0, 1] so, daß g(xm+1 ) < g(xm ) für alle m ∈ IN0 gilt. Daß dies immer möglich ist, wenn die Nullstelle noch nicht erreicht ist, zeigt Satz 23.5. Satz 23.5. Es sei f eine C 1 -Funktion, f (x) 6= 0, f 0 (x) regulär und h := f 0 (x)−1 f (x). Dann existiert ein µ > 0, so daß g(x − λh) < g(x) für alle λ ∈ (0, µ]. Beweis: Es ist g(x) = f (x)T f (x), und daher grad g(x) = 2f (x)T f 0 (x). Es sei φ(λ) := g(x − λh). Dann ist φ eine C 1 -Funktion mit φ(0) = g(x) und φ0 (λ) = −grad g(x − λh)h = −2f (x − λh)T f 0 (x − λh)h, d.h. φ0 (0) = −2f (x)T f 0 (x)f 0 (x)−1 f (x) = −2kf (x)k22 < 0. 23.1. AUFLÖSUNG NICHTLINEARER GLEICHUNGSSYSTEME 45 Tabelle 23.5: Newton-Verfahren, ungedämpft m 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 xm 1 0.55000000000000000 −14.43530223571625730 −9.55846899009341918 −6.30263512634718873 −4.12540490095915977 −2.66453732230278943 −1.67817129098230139 −1.00582442516326456 −0.54362763832473274 −0.22705037437102526 −0.01136811408793452 0.16037483148821532 1.29720182573823523 0.83216662389917077 0.53744240258463048 0.40668900211956326 0.38264871526056001 0.38202607642813437 0.38203126706979271 0.38203126811166926 0.38203126811166927 xm 2 −1.00000000000000000 −33.68447879289723070 −22.65588840979738190 −15.30801418517524050 −10.41578314254021010 −7.16283531774792886 −5.00476389670139821 −3.57701132447667355 −2.63207040180621126 −1.99656005864760327 −1.53983061247833520 −1.11595852255304619 2.35416946826005801 1.52437646280603078 1.02770844932461125 0.76355080012724792 0.67356137691691342 0.66409468893962469 0.66400128301154753 0.66400127421998055 0.66400127421998048 g(xm ) 1.62E + 0000 2.24E + 0009 1.97E + 0008 1.73E + 0007 1.52E + 0006 1.33E + 0005 1.16E + 0004 1.02E + 0003 9.00E + 0001 8.40E + 0000 9.68E − 0001 2.68E − 0001 7.32E + 0002 5.84E + 0001 3.96E + 0000 1.56E − 0001 1.11E − 0003 1.00E − 0007 8.77E − 0016 6.75E − 0032 5.88E − 0039 φ ist also in einer Umgebung von 0 streng monoton fallend. Einen geeigneten Dämpfungsparameter λm kann man durch fortgesetztes Halbieren bestimmen. Man berechne y k := xm − 2−k hm , k = 0, 1, 2, . . ., und wähle in dieser Folge dasjenige y k als neue Näherung xm+1 für eine Nullstelle von f , für das erstmals g(y k ) < g(xm ) gilt. Man erhält dann die folgende Form eines gedämpften Newton Verfahrens: Bestimme hm ∈ IRn mit f 0 (xm )hm = f (xm ) bestimme ` := min{k ∈ IN0 : g(xm − 2−k hm ) < g(xm )} und setze xm+1 := xm − 2−` hm Bemerkung 23.6. Die fortgesetzte Halbierung ist nur die einfachste Art der Schrittweitenbestimmung für ein gedämpftes Newton Verfahren. Weitere Schrittweitenstrategien, die meistens auf einer quadratischen oder kubischen Interpolation der bekannten Daten der Funktion φ beruhen, findet man in Dennis, Schnabel [8]. 2 Beispiel 23.7. f (x) = (x21 + x22 ) (1 + 0.8x1 + 0.6x2 ) − 1 (x21 + x22 ) (1 − 0.6x1 + 0.8x2 ) − 2x1 ! = 0. Dann erhält man mit dem Startwert x0 = (0.55 , −1)T mit dem Newton Verfahren die Näherungen in Tabelle 23.5. 46 KAPITEL 23. ANWENDUNGEN DER DIFFERENTIALRECHNUNG Tabelle 23.6: Newton-Verfahren, gedämpft, 1 m 0 1 2 3 4 5 6 7 8 9 10 11 12 xm 1 0.55000000000000000 0.53536591578543334 0.56110003914930182 0.52522028267090552 0.58022724802414461 0.44186642606308465 0.78715923029833133 0.64691727552902532 0.42036801216744384 0.38320847227569939 0.38203275158923288 0.38203126811259582 0.38203126811166927 xm 2 −1.00000000000000000 −1.03191843632118870 −0.97315152261970942 −1.04907142845895020 −0.91988676253078696 −1.20117318695284988 0.06828325649427959 0.76081952209075180 0.70268466773197415 0.66655934000194405 0.66400946937820756 0.66400127429259763 0.66400127421998048 g(xm ) 1.62E + 0000 1.62E + 0000 1.62E + 0000 1.60E + 0000 1.59E + 0000 1.57E + 0000 1.47E + 0000 9.44E − 0001 3.33E − 0002 9.38E − 0005 8.35E − 0010 6.18E − 0020 1.47E − 0038 Tabelle 23.7: Newton-Verfahren, gedämpft, 2 m 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 xm 1 0.54000000000000000 0.52226320324077548 0.54674729383789015 0.51049823387024609 0.55730345511559661 0.47836282966206385 0.61791730287807408 0.34190731543662328 0.47291974083537622 0.23567800090906323 0.32376926330177793 0.24244040787039246 0.27401919832012331 0.25802477791587531 0.26512517724780759 0.25920807677376168 0.26221776870739162 0.25966889237959624 xm 2 −1.00000000000000000 −1.03837727037179463 −0.98233280952907319 −1.05912654060680413 −0.94800525500289117 −1.10979544203828296 −0.73956641616568136 −1.31095184668199709 −0.57110672040690209 −1.21822240324259060 −0.93765575143268807 −1.13335030418307687 −1.04385654817449567 −1.08563557440662883 −1.06641164648454920 −1.08216418620516801 −1.07404006558494690 −1.08087102592776657 g(xm ) 1.544E + 0000 1.541E + 0000 1.536E + 0000 1.526E + 0000 1.509E + 0000 1.471E + 0000 1.443E + 0000 1.333E + 0000 8.306E − 0001 5.097E − 0001 4.505E − 0001 4.038E − 0001 3.955E − 0001 3.925E − 0001 3.925E − 0001 3.922E − 0001 3.921E − 0001 3.921E − 0001 Man entfernt sich also sehr weit von der Nullstelle von f und wird zufällig im zwölften Schritt in den näheren Einzugsbereich der Nullstelle getragen. Mit dem gedämpften Newton Verfahren erhält man die Werte aus Tabelle 23.6. Ändert man den Startwert für das gedämpften Newton Verfahren in x0 = (0.54 , −1)T , so erhält man die Näherungen in Tabelle 23.7. Das gedämpfte Newton Verfahren führt also nicht notwendig in eine Nullstelle von f , also in ein globales Minimum von g, sondern es kann auch (wie im obigen Fall) in einem lokalen Minimum stecken bleiben. Das Newton Verfahren findet (nach einigem Herumirren) nach dreißig Iterationen die Nullstelle von f . 2 23.2. IMPLIZITE FUNKTIONEN 23.2 47 Implizite Funktionen Beispiel 23.8. Wir betrachten das von Mi- ses Stabwerk der nebenstehenden Abbildung 23.1. Wir setzen voraus, daß der Winkel α0 im unbelasteten Stabwerk so klein ist, daß vor dem Durchschlagen des Stabwerks kein Knicken der Stäbe eintritt. Abbildung 23.1 Dann gilt in erster Näherung für die Verformungsenergie U = 2 · 21 Eqε2 `, wobei q die Querschnittsfläche der Stäbe, E den Elastizitätsmodul und ε := (` − `0 )/`0 die Verzerrung der Stäbe bezeichnet, und für die gegen die äußere Kraft verrichtete Arbeit W = −P · (Verschiebung der Spitze). Wegen ε= ˜ cos α − `/ ˜ cos α0 `/ cos α0 − cos α 1 = ≈ (α2 − α02 ) ˜ cos α0 cos α 2 `/ und ˜ ˜ 0 − α) Verschiebung = `(tan α0 − tan α) ≈ `(α ist die potentielle Energie des Stabwerks 1 1 P 1 P α + α04 − α0 , V = U + W ≈ Eq `˜ α4 − α02 α2 + 4 2 Eq 4 Eq und daher ergibt die Bedingung ∂V = 0 für die Lage des Stabwerks die Gleichung ∂α F (α, α0 , P ) = α3 − α02 α + P = 0. Eq Durch F (α, α0 , P ) = 0 wird eine Fläche im (α, α0 , P )-Raum definiert. 48 KAPITEL 23. ANWENDUNGEN DER DIFFERENTIALRECHNUNG Für festes α0 und P = 0 gilt α = α0 (oberer Teil der Falte). Erhöht man P , so fällt α bis zu einem kritischen Parameter α∗ (Rand der Falte). Erhöht man P weiter, so schlägt das Stabwerk durch (auf den unteren Teil der Falte). Senkt man P wieder, so nimmt α zu bis zu einem kritischen Parameter (Rand des unteren Teils der Falte) und schlägt dann nach oben durch. Abbildung 23.2 Die Ränder der Falten sind charakterisiert durch F (α, α0 , P ) = 0, ∂ 1 F (α, α0 , P ) = 0 = 3α2 − α02 , d.h. α∗ = ± √ α0 . ∂α 3 Gilt F (α̂, α̂0 , P̂ ) = 0 für (α̂, α̂0 , P̂ ) und liegt (α̂, α̂0 , P̂ ) nicht auf dem Rand der Falte (d.h. ∂ F (α̂, α̂0 , P̂ ) ∂α 6= 0), so existiert für alle (α0 , P ) aus einer (genügend kleinen) Umgebung U von (α̂0 , P̂ ) genau ein α =: φ(α0 , P ) auf der Fläche, das nahe α̂ liegt. Durch F (α, α0 , P ) = 0 wird also (lokal) implizit eine Funktion φ : U → U (α̂) von einer Umgebung U von (α̂0 , P̂ ) in eine Umgebung U (α̂) von α̂ definiert, die bei genügend wenig geänderten Parametern α0 und P den Auslenkungswinkel in der Nähe von α̂ (also für das nicht durchgeschlagene Stabwerk) zuordnet. Diese Abbildung ist stetig. ∂ F (α̂, α̂0 , P̂ ) = 0, ∂α ist dies nicht möglich. Liegt z.B. (α̂, α̂0 , P̂ ) auf dem rechten Rand und erhöht man Für Punkte auf dem Rand der Falte, d.h. F (α̂, α̂0 , P̂ ) = 0 und P , so gibt es keinen zugehörigen Winkel α nahe α̂. 2 Wir betrachten nun allgemeiner eine Abbildung f : IRn × IRm ⊃ D → IRn , und es sei (x̂ , ŷ) ∈ D, x̂ ∈ IRn , ŷ ∈ IRm , mit f (x̂, ŷ) = 0. Wir fragen, unter welchen Bedingungen (lokal) durch f (x, y) = 0 implizit eine Funktion definiert ist, wann es also Umgebungen U (x̂) und U (ŷ) gibt und eine Funktion φ : U (ŷ) → U (x̂) mit f (φ(y), y) = 0 für alle y ∈ U (ŷ). (In Beispiel 23.8. ist n = 1, m = 2, x = α, y = (α0 , P )). 23.2. IMPLIZITE FUNKTIONEN 49 x +b = 0 mit A = (A1 , A2 ) ∈ IRn,n+m , b ∈ y IRn , so ist f (x, y) = A1 x + A2 y + b = 0 genau dann nach x auflösbar, wenn Ist f linear, d.h. f (x, y) = (A1 , A2 ) A1 = ∂ ∂ f (x, y) := fi (x, y) i,j=1,...,n ∂x ∂xj regulär ist. In diesem Fall ist φ(y) = −A−1 1 (A2 y + b) mit f (φ(y), y) = 0 auf ganz IRm definiert. Ersetzt man im allgemeinen Fall f durch die Linearisierung in (x̂ , ŷ): f (x, y) ≈ f (x̂, ŷ) + ∂ ∂ f (x̂, ŷ)(x − x̂) + f (x̂, ŷ)(y − ŷ), ∂x ∂y so sieht man, daß man eine Auflösbarkeit von f (x, y) = 0 in einer Umgebung von (x̂ , ŷ) nach x erwarten kann, wenn die Matrix ∂ ∂ f (x̂, ŷ) := fi (x̂, ŷ) i,j=1,...,n ∂x ∂xj regulär ist. Tatsächlich gilt Satz 23.9. (Satz über implizite Funktionen) Sei f : IRn × IRm ⊃ D → IRn in einer Umgebung von (x̂, ŷ) ∈ D stetig differen∂ zierbar, sei f (x̂, ŷ) = 0, und sei f (x̂, ŷ) regulär. ∂x Dann existieren Umgebungen U (x̂) ⊂ IRn und U (ŷ) ⊂ IRm von x̂ und ŷ, so daß gilt (i) Für alle y ∈ U (ŷ) besitzt die Gleichung f (x, y) = 0 genau eine Lösung x =: φ(y) in U (x̂) (insbesondere ist x̂ = φ(ŷ)). (ii) φ : U (ŷ) → U (x̂) ist in U (ŷ) stetig differenzierbar mit !−1 ∂ φ (y) = − f (φ(y), y) ∂x 0 ∂ f (φ(y), y). ∂y Ist f eine C m -Funktion, so ist auch φ m-mal stetig differenzierbar. 50 KAPITEL 23. ANWENDUNGEN DER DIFFERENTIALRECHNUNG Bemerkung 23.10. Im Falle m = 1 kann man die Lösungsmenge L := {(x, y) : f (x, y) = 0} (lokal) beschreiben durch {(φ(y), y) : y ∈ (ŷ − ε, ŷ + ε)}, d.h. L ∩ (U (x̂) × U (ŷ)) ist eine stetig differenzierbare Kurve in IRn+1 mit dem Parameter y. Für m = 2 ist L ∩ (U (x̂) × U (ŷ)) bijektives Bild eines Kreises, also Fläche in IRn+2 . Im allgemeinen Fall ist L lokal bijektives Bild einer m-dimensionalen Kugel. Man spricht dann von einer m-dimensionalen Fläche in IRm+n . 2 Beispiel 23.11. Es sei f (x1 , x2 , y) = 2 −2 −1 2 x1 ex1 − y x2 . e x2 ∂ f (0, 0, 0) = ∂x 2 −2 ist regulär. Daher existieren ρ > 0 und r > 0, so daß für alle y mit |y| < ρ −1 2 die Gleichung f (x1 , x2 , y) = 0 eine eindeutige Lösung x(y) in der Kugel Kr (0) be- Dann ist (x̂1 , x̂2 , ŷ) = (0, 0, 0)T eine Lösung von f (x1 , x2 , y) = 0 und sitzt. Durch die Gleichung f (x1 , x2 , y) = 0 ist also implizit eine Abbildung von (−ρ, ρ) nach IR2 definiert, also eine Kurve y 7−→ (x1 (y), x2 (y), y) in IR3 . 2 Beispiel 23.12. Wir betrachten ! x2 + y 2 + z 2 − 1 x−y f (x, y, z) = 0 . 0 = Hierdurch wird der Schnitt der Einheitssphäre mit der Ebene beschrieben, die senkrecht auf der x-y-Ebene steht und die Winkelhalbierende des 1. Quadranten enthält. Dies ist offenbar ein Kreis durch den Nordpol (x̂ , ŷ , ẑ)T := (0 , 0 , 1)T . Wir fragen, nach welchen Paaren von Variablen f (x, y, z) = 0 in einer Umgebung von (x̂ , ŷ , ẑ)T aufgelöst werden kann. Es gilt ∂f 2x 2y 0 0 = = . 1 −1 (0,0,1) 1 −1 ∂(x, y) Da diese Matrix singulär ist, ist die Aulösbarkeit nach (x , y) nicht gesichert, und man überlegt sich leicht, daß die Auflösbarkeit auch nicht möglich ist. ∂f 2x 2z 0 2 = = 1 0 1 0 (0,0,1) ∂(x, z) 23.2. IMPLIZITE FUNKTIONEN 51 ist regulär. f kann also in einer Umgebung von (0 , 0 , 1)T nach (x, z)T aufgelöst werden. Es gibt also eine Umgebung (−ε, ε) von ŷ = 0 und eine Umgebung U := {(x, z)T ∈ IR2 : |x| < δ, |z − 1| < δ} von (x̂, ẑ)T und eine Funktion φ : (−ε, ε) → U , so daß gilt f (φ1 (y), y, φ2 (y)) ≡ 0, y ∈ (−ε, ε). φ ist differenzierbar in (−ε, ε) mit φ0 (y) = − ∂ ∂ f (φ1 (y), y, φ2 (y))−1 f (φ1 (y), y, φ2 (y)). ∂(x, z) ∂y Wegen ∂ 0 2 2y 2z = f (0, 0, 1) = −1 0 −1 0 (y,z)=(0,1) ∂(y, z) 2 ist f (x, y, z) = 0 auch nach (y, z) auflösbar. Der Beweis von Satz 23.9. wird konstruktiv geführt, indem man mit dem Fixpunktsatz für kontrahierende Abbildungen (Satz 23.9.) zeigt, daß für alle genügend nahe bei ŷ liegenden y (d.h. y ∈ U (ŷ)) der Operator des vereinfachten Newton Verfahrens T y (x) := x − ∂ ∂x −1 f (x̂, ŷ) f (x, y) in einer geeigneten Kugel U (x̂) mit Mittelpunkt x̂ genau einen Fixpunkt x = φ(y) besitzt, und dann die Differenzierbarkeit von φ : U (ŷ) → U (x̂) nachweist. Daß φ0 (y) die angegebene Gestalt hat, folgt dann aus der Kettenregel: Aus f (φ(y), y) = 0 erhält man durch Differenzieren ∂ ∂ f (φ(y), y)φ0 (y) + f (φ(y), y) = 0, ∂x ∂y d.h. ∂ φ0 (y) = − −1 ∂ f (φ(y), y) f (φ(y), y). ∂x ∂y Wir führen den Beweis von Satz 23.9. nur für den (technisch etwas einfacheren, aber wichtigen) Spezialfall des Satzes 23.13. Satz 23.13. (lokale Umkehrbarkeit) Es sei F : IRn ⊃ D → IRn (D Gebiet) stetig differenzierbar in D und x̂ ∈ D, so daß die Matrix F 0 (x̂) regulär ist. Dann gibt es Umgebungen U (x̂) und U (ŷ) von x̂ und ŷ := F (x̂), so daß für alle y ∈ U (ŷ) die Gleichung F (x) = y genau eine Lösung g(y) ∈ U (x̂) besitzt. Die Funktion g : U (ŷ) → U (x̂) ist stetig differenzierbar mit g 0 (y) = F 0 (g(y))−1 . 52 KAPITEL 23. ANWENDUNGEN DER DIFFERENTIALRECHNUNG Bemerkung 23.14. Im Falle einer reellen Veränderlichen (n = 1) erhält man aus F 0 (x̂) 6= 0 und der Stetigkeit von F 0 , daß F 0 (x) 6= 0 für alle x ∈ (x̂ − r, x̂ + r) mit geeignetem r > 0 gilt, und daß dann F eine Umkehrabbildung F −1 : (F (x̂ − r), F (x̂ + r)) → (x̂ − r, x̂ + r) (im Falle F 0 (x̂) > 0) besitzt mit (F −1 )0 (y) = 1/F 0 (F −1 (y)). In Fall n = 1 folgt aus F 0 (x) 6= 0 für alle x sogar die globale Existenz der Inversen. Für n > 1 ist eine solche Aussage nicht zu erwarten, denn für F (x1 , x2 ) = exp(x1 ) cos(x2 ) exp(x1 ) sin(x2 ) gilt det F 0 (x1 , x2 ) = exp(2x1 ) > 0 für alle x ∈ IR2 , aber wegen F (x1 , x2 ) = F (x1 , x2 + 2π) hat F keine Inverse auf F (IR2 ). Satz 23.13. garantiert jedoch, daß es zu jedem x̂ ∈ IR2 eine Umgebung U (x̂) und eine Umgebung U (ŷ) von ŷ := F (x̂) gibt, so daß die inverse Abbildung F −1 : U (ŷ) → U (x̂) zu F 2 existiert. Beweis: Wir wenden für festes y den Kontraktionssatz auf die Abbildung des vereinfachten Newton Verfahrens zur Lösung von F (x) − y = 0 mit x0 := x̂ an, d.h. T y (x) := x − F 0 (x̂)−1 (F (x) − y). Es ist T 0y (x) = E − F 0 (x̂)−1 F 0 (x) = F 0 (x̂)−1 (F 0 (x̂) − F 0 (x)), d.h. für fest vorgegebenes q ∈ (0, 1) kT 0y (x)k ≤ kF 0 (x̂)−1 k · kF 0 (x̂) − F 0 (x)k ≤ q < 1 für alle x ∈ K̄r (x̂) für genügend kleines r > 0 wegen der Stetigkeit von F 0 , und kT y (x̂) − x̂k = kF 0 (x̂)−1 (F (x̂) − y)k = kF 0 (x̂)−1 (ŷ − y)k ≤ kF 0 (x̂)−1 k · kŷ − yk ≤ (1 − q)r für alle y mit ky − ŷk ≤ (1 − q)r =: s. kF 0 (x̂)−1 k Für jedes y ∈ Ks (ŷ) bildet also T y die Kugel Kr (x̂) kontrahierend in sich ab und besitzt daher einen eindeutigen Fixpunkt g(y). 23.2. IMPLIZITE FUNKTIONEN 53 g : Ks (ŷ) → Kr (x̂) ist stetig, denn für xi := g(y i ), i = 1, 2, gilt kg(y 1 ) − g(y 2 )k = kx1 − x2 k = kT y 1 (x1 ) − T y 2 (x2 )k ≤ kT y 1 (x1 ) − T y 1 (x2 )k + kT y 1 (x2 ) − T y 2 (x2 )k ≤ qkx1 − x2 k + kT y 1 (x2 ) − T y 2 (x2 )k = qkg(y 1 ) − g(y 2 )k + kx2 − F 0 (x̂)−1 (F (x2 ) − y 1 ) − x2 + F 0 (x̂)−1 (F (x2 ) − y 2 )k d.h. 1 kF 0 (x̂)−1 (y 1 − y 2 )k 1−q 1 kF 0 (x̂)−1 k · ky 1 − y 2 k. ≤ 1−q kg(y 1 ) − g(y 2 )k ≤ (23.6) g 0 (y) = F 0 (g(y))−1 zeigen wir nur für y = ŷ. Der allgemeine Fall fordert genaueres (rein technisches) Abschätzen. Es gilt wegen y = F (g(y)) und der Differenzierbarkeit von F kg(y) − g(ŷ) − F 0 (g(ŷ))−1 (y − ŷ)k h i = k − F 0 (x̂)−1 F (g(y)) − F (g(ŷ)) − F 0 (g(ŷ)) (g(y) − g(ŷ)) k ≤ kF 0 (x̂)−1 k · kg(y) − g(ŷ)kρ x̂; kg(y) − g(ŷ)k mit ρ(x̂, ε) → 0 für ε → 0, und mit (23.6) 1 kg(y) − g(ŷ) − F 0 (g(ŷ))−1 (y − ŷ)k ky − ŷk 2 kF 0 (x̂)−1 k ≤ ρ(x̂; kg(y) − g(ŷ)k) → 0 für y → ŷ. 1−q Wir betrachten nun den Fall f : IRn × IR1 ⊃ D → IRn etwas genauer, also den Fall eines von einem reellen Parameter λ abhängigen Gleichungssystems f (x, λ) = 0. (23.7) ∂ f (x̂, λ̂) regulär, so kann man die Gleichung (23.7) lokal ∂x nach x auflösen und durch (23.7) wird eine Kurve in IRn+1 beschrieben, die bzgl. λ Ist f (x̂, λ̂) = 0 und parametrisiert werden kann. ∂ Ist f (x̂, λ̂) singulär und besitzt die Ableitungsmatrix ∂x f 0 (x̂, λ̂) = ∂ ∂x f (x̂, λ̂), ∂ f (x̂, λ̂) ∂λ 54 KAPITEL 23. ANWENDUNGEN DER DIFFERENTIALRECHNUNG den Rang n, so gibt es einen Index i ∈ {1, . . . , n}, so daß die Matrix Ai , die man aus f 0 (x̂, λ̂) durch Streichen der i-ten Spalte erhält, regulär ist. In diesem Fall kann man (23.7) nach (x1 , . . . , xi−1 , xi+1 , . . . , xn , λ) auflösen, und durch (23.7) wird wieder nach dem Satz 23.9. über implizite Funktionen lokal eine Kurve bestimmt, die man bzgl. xi parametrisieren kann. Im Falle n = 1 kann eine der Situationen aus Abbildung 23.3 oder Abbildung 23.4 eintreten. Abbildung 23.3 Abbildung 23.4 Umkehrpunkte Ableitung nach x singulär, kein Umkehrpunkt In den ersten beiden Fällen spricht man von einem Umkehrpunkt (x̂, λ̂) der durch f (x, λ) = 0 definierten Kurve. 23.2. IMPLIZITE FUNKTIONEN 55 Definition 23.15. Es sei f : IRn+1 ⊃ D → IRn eine C 1 -Funktion. (x̂, λ̂) ∈ D heißt Umkehrpunkt der Lösungsmenge von f (x, λ) = 0, falls die folgenden vier Bedingungen erfüllt sind: (i) f (x̂, λ̂) = 0, (ii) die Matrix (iii) ∂ f (x̂, λ̂) besitzt den Rang n − 1 ∂x ∂ ∂ ∂ ∂ f (x̂, λ̂) 6∈ f (x̂, λ̂)(IRn ), d.h. f (x̂, λ̂), f (x̂, λ̂) hat den Rang n. ∂λ ∂x ∂x ∂λ (iv) Es gibt eine Parametrisierung t 7→ (x(t), λ(t)) der Lösungsmenge von f (x, λ) = 0 in einer Umgebung von (x̂, λ̂) mit x(t0 ) = x̂ und λ(t0 ) = λ̂, so daß t 7→ λ(t) in t0 ein striktes lokales Extremum besitzt. Bemerkung 23.16. Die ersten drei Bedingungen garantieren, daß die Tangente an den Lösungsast von f (x, λ) = 0 durch den Punkt (x̂, λ̂) senkrecht zur λ-Achse liegt. Die letzte Bedingung garantiert, daß der Lösungsast einen Umkehrpunkt in (x̂, λ̂) besitzt, also nicht die Situation aus Abbildung 23.4 vorliegt. 2 Bemerkung 23.17. Die Bedingung (iv) ist erfüllt, wenn die Abbildung t 7→ λ(t) d2 zweimal stetig differenzierbar ist und 2 λ(t0 ) 6= 0 gilt. Diese hinreichende Bedindt gung kann durch eine Bedingung an die zweite Ableitung von f (x̂, λ̂) ersetzt werden, die keine Parametrisierung des Lösungsastes enthält. 2 Das folgende Lemma 23.18. zeigt, nach welchen Komponenten eine Lösungskurve (auch in der Nähe eines Umkehrpunktes) parametrisiert werden kann. Lemma 23.18. Es sei f (x̂, λ̂) = 0 mit Rang f 0 (x̂, λ̂) = n, und es sei v ∈ IRn+1 \ {0} mit f 0 (x̂, λ̂)v = 0. Dann kann man die in einer Umgebung von (x̂, λ̂) durch f (x, λ) = 0 definierte Kurve durch jede Variable xi bzw. λ parametrisieren, für die die zugehörige Komponente vi bzw. vn+1 von v nicht verschwindet. Beweis: Wegen Rang f 0 (x̂, λ̂) = n besitzt das lineare homogene Gleichungssystem f 0 (x̂, λ̂) y = 0 einen eindimensionalen Lösungsraum. Jede Lösung y besitzt also die Darstellung y = αv mit einem α ∈ IR. Wir haben zu zeigen, daß für jedes i mit vi 6= 0 die Matrix Ai , die man durch Streichen der i-ten Spalte aus f 0 (x̂, λ̂) erhält, regulär ist (i = 1, . . . , n + 1). 56 KAPITEL 23. ANWENDUNGEN DER DIFFERENTIALRECHNUNG Ist Ai singulär, so gibt es ein w ∈ IRn \ {0} mit Ai w = 0. Wir füllen w an der i-ten Position durch 0 zu einem Vektor w̃ ∈ IRn+1 auf. Dann gilt f 0 (x̂, λ̂)w̃ = 0, d.h. w̃ = αv für ein α ∈ IR \ {0}, und für die i-te Komponente erhält man den Widerspruch 0 6= αvi = w̃i = 0. Für die mathematische Untersuchung der Lösungsmenge von f (x, λ) = 0 sind Umkehrpunkte ohne Bedeutung (durch sie geht wie durch Punkte mit det ∂∂x f (x, λ) 6= 0 eine glatte Lösungskurve). Für technische Probleme können Umkehrpunkte aber wichtig sein. Bezeichnen z.B. die xi die Verschiebungen der Knoten in einem belasteten Stabwerk und charakterisiert λ die Last, so kann ein Punkt (x̂, λ̂) mit singulärem ∂∂x f (x̂, λ̂) ein Durchschlagspunkt sein, die Lage des Stabwerks für λ = λ̂ also seine Stabilität verlieren. Ist f (x̂, λ̂) = 0 und Rang f 0 (x̂, λ̂) < n, so kann (x̂, λ̂) ein Verzweigungspunkt der Lösungsmenge von f (x, λ) = 0 sein. Wir betrachten nur den Fall der “Verzweigung von der trivialen Lösung”. Definition 23.19. Für f : IRn+1 ⊃ D → IRn gelte f (0, λ) = 0 für alle λ ∈ I (I ⊂ IR ein Intervall). (0, λ̂) heißt Verzweigungspunkt der Lösungsmenge von f (x, λ) = 0, wenn es in jeder Umgebung von (0, λ̂) eine Lösung (x, λ) von (23.7) gibt mit x 6= 0. Aus dem Satz 23.9. über implizite Funktionen folgt für einen Verzweigungspunkt (0, λ̂), daß Rang f 0 (0, λ̂) < n gilt. Beispiel 23.20. Als Beispiel betrachten wir das Stabwerk aus Abbildung 23.5, das aus zwei Stäben der Länge ` besteht, die durch eine Torsionsfeder verbunden sind, dessen unteres Ende gelenkig gelagert ist und dessen oberes Ende so gelagert ist, daß die beiden Stabenden senkrecht übereinander stehen. Belastet man dieses Stabwerk mit einer Last λ in senkrechter Richtung, so wird für kleine Lasten λ die senkrechte Lage stabil sein; bei Überschreiten einer kritischen Last λ̂ wird der Stab ausgelenkt, und die senkrechte Lage ist eine labile Gleichgewichtslage des Stabwerks. Es ist also (0 , λ̂) ein Verzweigungspunkt (wenn 0 die senkrechte Lage charakterisiert). Abbildung 23.5 23.2. IMPLIZITE FUNKTIONEN 57 Es sei ϕ der Auslenkungswinkel des Stabwerks und c die Federkonstante. Dann sind das durch die äußere Kraft und das durch die Federkraft hervorgerufene Moment genau dann im Gleichgewicht, wenn gilt f (ϕ, λ) = cϕ − λ` sin ϕ = 0. Für einen Verzweigungspunkt (0 , λ̂) ist also notwendig c f 0 (0, λ̂) = (c − λ̂` , 0) = (0 , 0), d.h. λ̂ = . ` Abbildung 23.6 Lösungsmenge von f (0 , λ̂) ist tatsächlich ein Verzweigungspunkt, denn wegen sin ϕ → 1 − 0 für ϕ → 0 ϕ sin ϕ für ϕ 6= 0 gibt es zu jedem λ > λ̂ mit “kleinem |λ − λ̂|” ϕ ein ϕ “mit |ϕ| klein” und f (ϕ, λ) = 0. und der Stetigkeit von 2 Die Abbildung 23.6 zeigt die Lösungsmenge von f . Der Satz über implizite Funktionen liefert nur eine notwendige, keine hinreichende Bedingung für Verzweigung. Beispiel 23.21. f : IR3 → IR2 , f (x, λ) = (λx1 + x32 , λx2 − x31 )T . Für alle λ ∈ IR ist x = (0 , 0)T eine Lösung von f (x, λ) = 0. Für λ̂ = 0 ist 0 f (0, λ̂) = λ 3x22 x1 −3x21 λ x2 ! =0 (0,0,0) 58 KAPITEL 23. ANWENDUNGEN DER DIFFERENTIALRECHNUNG also Rang f 0 (0, λ̂) = 0 < 2, aber (0 , λ̂)T ist kein Verzweigungspunkt, denn durch Multiplikation von f1 (x, λ) = 0 mit x2 und von f2 (x, λ) = 0 mit x1 und Subtraktion erhält man x41 + x42 = 0, d.h. x1 = x2 = 0, und f (x, λ) = 0 besitzt keine Lösungen, 2 die von (0, λ)T verschieden sind. Man kann zeigen, daß (0 , λ̂)T ein Verzweigungspunkt von f (x, λ) = 0 ist, falls ∂ ∂ Rang f (0, λ̂) = n − 1 ist, 0 ein algebraisch einfacher Eigenwert von f (0, λ̂) ∂x ∂x ist, ∂ ∂ f (0, λ̂) ∈ f (0, λ̂)(IRn ) ∂λ ∂x gilt und eine Voraussetzung über die zweiten Ableitungen von f erfüllt ist (vgl. Seydel [25, p. 163ff]), die in nahezu allen (nicht konstruierten) Fällen gilt. Im Fall f (x, λ) = x − λF (x) mit F (0) = 0 gilt ∂ ∂ f (0, λ̂) = −F (0) = 0 ∈ f (0, λ̂)(IRn ) ∂λ ∂x stets. Rang ∂ f (0, λ̂) = Rang (E − λ̂F 0 (0)) = n − 1 ∂x gilt genau dann, wenn λ̂−1 ein geometrisch einfacher Eigenwert von F 0 (0) ist; und die Bedingung über die zweiten Ableitungen ist erfüllt, wenn λ̂−1 ein algebraisch einfacher Eigenwert von F 0 (0) ist. 23.3 Homotopieverfahren (Inkremental-Lastmethode) Wir haben bereits erwähnt, daß in vielen Fällen der Einzugsbereich einer Lösung x̂ eines nichtlinearen Gleichungssystems f (x) = 0 für das Newton Verfahren sehr klein ist. Die folgende Vorgehensweise gibt häufig eine Möglichkeit, in den Einzugsbereich vorzudringen: Wir führen zu den Variablen x1 , . . . , xn eine zusätzliche Variable λ künstlich ein und betten das zu behandelnde Problem f (x) = 0 (23.8) mit f : IRn ⊃ D → IRn in ein Nullstellenproblem h(x, λ) = 0 (23.9) 23.3. HOMOTOPIEVERFAHREN (INKREMENTAL-LASTMETHODE) 59 mit h : IRn+1 ⊃ D × [0, 1] → IRn ein, wobei h(x, 1) = f (x) für alle x ∈ D gilt und für h(x, 0) = 0 eine Lösung x(0) bekannt ist (bzw. h(x, 0) = 0 leicht lösbar ist). Ist z.B. x0 eine Näherungslösung für x̂, so kann man h(x, λ) = f (x) − (1 − λ)f (x0 ) wählen. Enthält die Lösungsmenge der Gleichung (23.9) eine Kurve γ mit x(0) ∈ γ, so kann man versuchen, ausgehend von x(0) mit einem numerischen Verfahren der Kurve γ zu folgen. Erreicht man dabei auf der Kurve einen Punkt (x̂, 1), so gilt h(x̂, 1) = f (x̂) = 0, und man hat eine Lösung von (23.8) gefunden. Abbildung 23.7 Jede Methode, die das Problem (23.8) in ein Problem (23.9) einbettet und Lösungskurven von (23.9) verfolgt, um Lösungen von (23.8) zu approximieren, heißt Homotopieverfahren oder Einbettungsverfahren oder Fortsetzungsverfahren oder (in der Ingenieurliteratur) Inkremental-Lastmethode. In den Anwendungen hat der Parameter λ häufig eine anschauliche Bedeutung: Es sei x der Vektor der Verschiebungen der Knoten in einem belasteten Stabwerk gegenüber dem unbelasteten Zustand, und es sei λ ein Maß für eine von außen aufgebrachte Last. Der Zusammenhang zwischen der Last und dem Verschiebungsvektor werde beschrieben durch das Gleichungssystem h(x, λ) = 0 Abbildung 23.8 Gesucht ist die Verschiebung x̂ für eine gegebene positive Last λ̂. Erhöht man die Last λ ausgehend von λ = 0, so werden sich die zugehörigen Verschiebungen x(λ) stetig ändern, solange in dem Stabwerk keine Stäbe geknickt werden oder durchschlagen. Die folgende Vorgehensweise zur Ermittlung von x̂ = x(λ̂) ist daher naheliegend: 60 KAPITEL 23. ANWENDUNGEN DER DIFFERENTIALRECHNUNG Man zerlege das Intervall [0, λ̂] in 0 = λ0 < λ1 < λ2 < . . . < λm := λ̂. Ist für i = 1, . . . , m bereits eine gute Näherung xi−1 für eine Lösung von h(x, λi−1 ) = 0 bekannt (für i = 1 wählt man natürlich x0 = x(0) = 0), so bestimme man mit dem Newton Verfahren (oder einem anderen Verfahren zur Lösung von nichtlinearen Systemen) und dem Startwert xi−1 eine gute Näherung xi für eine Lösung von h(x, λi ) = 0. Im m-ten Schritt erhält man damit eine Näherung für eine Lösung von h(x, λ̂) = 0. Beispiel 23.22. Wir betrachten das von Mises Stabwerk aus Beispiel 23.8. mit α0 = 0.5 und λ := P , Eq d.h. h(x, λ) = x3 − 0.25x + λ = 0. Dann ist die kritische Last 1 √ ≈ 0.0481. Abbildung 23.9 12 3 Mit der Schrittweite λi − λi−1 = 0.008, i = 1, . . . , 6, und dem Startwert x(0) = 0.5 λ̂ = benötigt man die in Abbildung 23.9 angegebenen Anzahlen von Newton Iterationen, um xi ≈ x(0.08i) mit einem Fehler von 10−5 ausgehend von xi−1 zu bestimmen. Genauso kann man ausgehend von x(0) = 0 die (instabilen) kleinen positiven Lösun2 gen von h(x, λ) = 0 berechnen. Sind bereits Näherungen xi−1 ≈ x(λi−1 ) und xi ≈ x(λi ) bekannt, so kann mit Hilfe der Sekante eine i.a. bessere Startnäherung als xi für x(λi+1 ) erhalten: x(λi+1 ) ≈ xi + λi+1 − λi i (x − xi−1 ). λi − λi−1 Hiermit benötigt man in dem Beispiel 23.22. auf dem oberen Ast 2, 2, 2, 2, 2 und 5 Iterationen und auf dem unteren Ast 2, 1, 1, 2, 2 und 5 Iterationen. Abbildung 23.10 23.3. HOMOTOPIEVERFAHREN (INKREMENTAL-LASTMETHODE) 61 Ist man nicht an der Lösungskurve x(λ) von h(x, λ) = 0 interessiert, sondern nur an der Lösung für einen festen Parameter λ̂, z.B. an der von f (x) = h(x, 1) = 0, so wird man nicht mit einer fest vorgegebenen Zerlegung des Parameterintervalls rechnen, sondern die Zerlegung der Lösungskurve adaptiv anpassen. Der folgende Algorithmus zur Bestimmung einer Lösung von h(x, 1) = 0 enthält eine einfache Schrittweitensteuerung: Gegeben seien die beiden letzten Parameterwerte λ0 und λ1 (λ0 < λ1 ), Näherungen x0 und x1 für die zugehörgen Lösungen x(λ0 ) und x(λ1 ) von h(x, λ) = 0, eine ∂ Testschrittweite τ und δ1 := | det h(x1 , λ1 )|. ∂x Für die Steuerung des Algorithmus seien ferner die folgenden Größen vor Beginn der Rechnung bereitgestellt: τ0 , die minimal zugelassene Schrittweite, τ∞ , die maximal zugelassene Schrittweite, κ0 , die minimale Länge eines Newton-Schritts, κ∞ , die maximale Länge eines Newton-Schritts, µ∞ , der maximale Defekt in einem Newton Schritt, α, der Vergrößerungsfaktor für die Schrittlänge (α > 1), β, der Verkleinerungsfaktor für die Schrittlänge (0 < β < 1), m∞ , die Maximalzahl der Newton-Schritte, δ0 , der minimale Faktor bei der Veränderung der Determinante. Wir beschreiben den Algorithmus mit einem Pseudocode: repeat boole:=true; {Mit boole merken wir uns, ob die Testschrittweite τ richtig gewählt war} σ := λ1 + τ ; m := 1; {m zählt die Newton Schritte für den Parameter σ} δ2 := δ1 ; {δ1 wird gesichert, falls τ zu groß gewählt war} y := x1 + τ (x1 − x0 )/(λ1 − λ0 ); {Schätzung einer Näherung für x(σ) mit einem Sekantenschritt} repeat 62 KAPITEL 23. ANWENDUNGEN DER DIFFERENTIALRECHNUNG z := y − ∂ h(y, σ)−1 h(y, σ); ∂x {Newton Schritt für h(x, σ) = 0 mit dem Startwert y} ∂ δz := | det h(z, σ)|; ∂x m := m + 1; If (ky − zk > κ∞ ) or (δz < δ0 δ1 ) or (m > m∞ ) then {Die Schrittweite wird verkürzt, wenn ein Newtonschritt zu lang ist, wenn sich die Funktionaldeterminante zu stark ändert oder wenn zuviele Newtonschritte benötigt werden} begin τ := βτ ; boole:=false; {Wurde die Schrittweite verkürzt, so ist es nicht sinnvoll, sie sofort wieder zu verlängern} δ1 := δ2 ; if τ < τ0 then write (λ = 1 wurde nicht erreicht) STOP; {Unterschreitet die Schrittweite τ0 , so ist der Algorithmus stecken geblieben} 1 y := x + τ (x1 − x0 )/(λ1 − λ0 ); {Schätzung einer Näherung für x(σ) mit einem Sekantenschritt für die verkürzte Schrittweite} end else begin y := z; δ1 := δz {Startwert und Funktionaldeterminante werden für einen neuen Newton Schritt bereitgestellt} end until (ky − zk < κ0 ) and (kh(z, σ)k < µ∞ ); {Das Newton Verfahren für h(x, σ) = 0 war erfolgreich, falls der letzte Newton Schritt kleiner als κ0 war und die Norm von h(z, σ) kleiner als µ∞ ist} If σ < 1 then begin 23.3. HOMOTOPIEVERFAHREN (INKREMENTAL-LASTMETHODE) 63 Tabelle 23.8: Homotopieverfahren m 0 1 2 3 4 5 6 7 8 xm 1 0.5500000 0.5475886 0.5464193 0.5458752 0.5456517 0.5454854 0.5453518 0.5452979 0.5452591 xm 2 −1.0000000 −1.0052771 −1.0078491 −1.0090490 −1.0095422 −1.0099096 −1.0102050 −1.0103242 −1.0104098 λm 0.0000000 0.0001221 0.0001526 0.0001602 0.0001621 0.0001631 0.0001636 0.0001637 0.0001637 Newton-Schritte 5 4 4 4 4 4 4 3 λ0 = λ1 ; λ1 = σ; x0 = x1 ; x1 = z; δ1 = δz end; if boole then τ := min(ατ, τ∞ ); {Wenn im letzten Parameterschritt keine Verkürzungen erforderlich waren, wird die Schrittweite verlängert} τ := min(τ, 1 − σ); until τ = 0; Beispiel 23.23. Für das Beispiel 23.7. f (x) = (x21 + x22 )(1 + 0.8x1 + 0.6x2 ) − 1 (x21 + x22 )(1 − 0.6x1 + 0.8x2 ) − 2x1 ! 0 0 = erhält man mit der Homotopie h(x, λ) = f (x) − (1 − λ)f (x0 ) und x0 = (0.55 , −1)T die Punkte auf der Lösungskurve x(λ) in Tabelle 23.8 ∂ h(x1 , λ1 ) (numerisch) singulär wird, der Satz ∂x über implizite Funktionen also nicht mehr angewendet werden kann, um h(x, λ) = 0 Das Verfahren wird in gestoppt, da nach x aufzulösen. 2 Ist (x1 , λ1 ) ein Verzweigungspunkt, so hat man grundsätzliche Schwierigkeiten bei der Kurvenverfolgung zu erwarten. Ist (x1 , λ1 ) (wie in unserem Beispiel 23.23.) ein Umkehrpunkt, so kann man durch Umparametrisierung der Lösungsmenge, d.h. indem man den Parameter λ nicht mehr auszeichnet, den Umkehrpunkt überwinden. 64 KAPITEL 23. ANWENDUNGEN DER DIFFERENTIALRECHNUNG Tabelle 23.9: modifiziertes Homotopieverfahren m 0 1 2 3 4 5 6 7 8 xm 1 0.5500000 0.5824505 0.5858292 0.5959513 0.6261830 0.7113176 0.8054892 0.5731184 0.3820313 xm 2 −1.0000000 −0.9315693 −0.9246311 −0.9039555 −0.8425103 −0.6576314 0.0532877 0.5100110 0.6640013 λm 0.0000000 −0.0078125 −0.0091438 −0.0135687 −0.0298007 −0.0859551 0.0179935 0.5904037 1.0000000 Newton-Schritte 6 3 3 3 3 5 5 5 Wir beschreiben, wie man ausgehend von einem Punkt u0 := (x, λ) mit h(u0 ) = 0 und Rang h0 (u0 ) = n mit der Suchrichtung v (kvk2 = 1) (z.B. der Sekantenrichtung) und der Schrittlänge τ einen neuen Punkt u1 mit h(u1 ) = 0 konstruiert: Abbildung 23.11 Es sei X := {z ∈ IRn+1 : (z − u0 )T v = τ } der affine Unterraum des IRn+1 , der senkrecht auf v steht und von u0 den Abstand τ hat. Wir bestimmen dann u1 ∈ IRn+1 als Lösung von g(u) := h(u) (u − u0 )T v − τ ! =0 mit dem Newton Verfahren für g. Es ist klar, daß bei geeigneter Wahl von v (z.B. der Sekantenrichtung zu den letzten beiden berechneten Kurvenpunkten u0 und u−1 , falls diese genügend nahe beieinander liegen,) und genügend kleines τ > 0 der Raum X die Lösungsmenge von h(u) = 0 schneidet, das Gleichungssystem g(u) = 0 also lösbar ist. Ist v = (0, . . . , 0, 1)T ∈ IRn+1 , so entspricht der obige Schritt dem Vorgehen in Beispiel 23.22. Beispiel 23.24. Mit diesem Verfahren kann der Lösungsast in dem Beispiel 23.23. verfolgt werden. Man erhält Tabelle 23.9. 2 23.4. EXTREMWERTE 23.4 65 Extremwerte von Funktionen von mehreren Veränderlichen Wir betrachten in diesem Abschnitt stets eine reelle Funktion von n Veränderlichen f : IRn ⊃ D → IR und geben notwendige und hinreichende Bedingungen für (lokale) Extrema von f an. Ist D abgeschlossen und beschränkt und ist f stetig in D, so nimmt die Funktion f sowohl ihr globales Minimum als auch globales Maximum an. Satz 23.25. (notwendige Bedingung erster Ordnung) ◦ Sei x̂ ein lokales Extremum von f , und sei f im Inneren D von D differenzierbar. Dann gilt x̂ ∈ ∂D oder grad f (x̂) = 0. ◦ Beweis: Angenommen x̂ ∈D, grad f (x̂) 6= 0 und f besitze ein lokales Minimum in x̂. Dann gibt es ein ξ ∈ IRn , ξ 6= 0 mit grad f (x̂) ξ < 0 (z.B. ξ := −∇f (x̂) ) . Nach Definition der Ableitung gilt f (x̂ + tξ) − f (x̂) = t grad f (x̂) ξ + r(t) mit 1 lim r(t) = 0. t→0 t Daher gibt es ein t0 > 0 mit f (x̂ + tξ) − f (x̂) < 0 für alle t ∈ (0, t0 ), und x̂ ist nicht lokales Minimum von f . Ist x̂ ein lokales Maximum, so kann man genauso mit t0 < 0 schließen. Bemerkung 23.26. ∇f (x) = 0 ist ein (i.a. nichtlineares) Gleichungssystem von n Gleichungen in n Unbekannten. Im Prinzip kann man also die möglichen Kandidaten ◦ für lokale Extrema in D durch Lösen von ∇f (x) = 0 ermitteln. Hierzu kann man das Newton Verfahren verwenden, wenn f zweimal differenzierbar ist. 2 Bemerkung 23.27. Aus dem Beweis geht hervor, daß für Richtungen ξ mit grad f (x) ξ < 0 bei Fortschreiten von x in Richtung ξ der Funktionswert lokal abnimmt. Eine solche Richtung heißt Abstiegsrichtung. Abstiegsrichtungen kann man benutzen, um ein lokales Minimum numerisch zu bestimmen. 2 66 KAPITEL 23. ANWENDUNGEN DER DIFFERENTIALRECHNUNG ◦ Bemerkung 23.28. Punkte x̂ ∈D mit ∇f (x̂) = 0 heißen stationäre Punkte von f . Nicht jeder stationäre Punkt von f ist lokales Minimum oder lokales 2 Maximum. Beispiel 23.29. f (x1 , x2 ) := x21 − x22 . 0 0 für x̂ = , aber x̂ ist weder lokales Minimum noch Dann gilt ∇f (x̂) = 0 0 Maximum (einen dreidimensionalen Plot des Graphen und ein Höhenlinienbild von f findet man in Kapitel 22). Ein stationärer Punkt mit dieser Eigenschaft heißt 2 Sattelpunkt von f . Zur Klassifikation der stationären Punkte von f verwenden wir den Taylorschen ◦ Satz. Ist f eine C 2 -Funktion auf D und x̂ ∈D, so gilt 1 f (x) = f (x̂) + Df (x̂)(x − x̂) + (x − x̂)T D2 f (x̂)(x − x̂) + R2 (x; x̂) 2 mit R2 (x; x̂) (23.10) lim 2 = 0. x→x̂ kx − x̂k Ist x̂ ein stationärer Punkt, so wird das lokale Verhalten der Funktion (unter Vernachlässigung des Restgliedes) beschrieben durch 1 f (x) ≈ f (x̂) + (x − x̂)T D2 f (x̂)(x − x̂). 2 Ausschlaggebend sind also die Eigenschaften der (symmetrischen!) Hessematrix D2 f (x̂) = ∂ 2 f (x̂) ∂xi ∂xj i,j=1,...,n bzw. der quadratischen Form 1 Q(ξ) := ξ T D2 f (x̂)ξ, ξ := x − x̂ ∈ IRn . 2 Satz 23.30. Es sei f : IRn ⊃ D → IR eine C 2 -Funktion und D offen. (i) (notwendige Bedingung zweiter Ordnung) ◦ Ist x̂ ∈D ein lokales Minimum (bzw. Maximum), so ist D2 f (x̂) positiv (negativ) semidefinit. (ii) (hinreichende Bedingung zweiter Ordnung) Ist x̂ ein stationärer Punkt und D2 f (x̂) positiv definit (bzw. negativ definit bzw. indefinit), so besitzt f in x̂ ein striktes lokales Minimum (bzw. ein striktes lokales Maximum bzw. einen Sattelpunkt). 23.4. EXTREMWERTE 67 ◦ Beweis: (i) Es sei x̂ ∈D ein lokales Minimum von f und D2 f (x̂) nicht positiv semidefinit. Dann gibt es ein ξ ∈ IRn , kξk = 1, mit µ := ξ T D2 f (x̂)ξ < 0. Nach dem Taylorschen Satz gilt wegen Df (x̂) = 0 1 2 T 2 λ ξ D f (x̂)ξ + R2 (x̂ + λξ; x̂) 2 1 2 µ + 2R2 (x̂ + λξ; x̂) = λ . 2 kλξk2 f (x̂ + λξ) − f (x̂) = Da x̂ ein lokales Minimum von f ist, ist dieser Ausdruck für genügend kleine λ > 0 nicht negativ, während andererseits wegen (23.10) für λ → 0 der Zähler der rechten Seite negativ werden muß. (ii) Es sei λmin der minimale Eigenwert von D2 f (x̂). Dann gilt nach dem Rayleighschen Prinzip λmin = min ξ 6=0 ξ T D2 f (x̂)ξ . kξk22 Wegen der positiven Definitheit von D2 f (x̂) ist also λmin > 0. Daher folgt für alle ξ ∈ IRn , kξk2 = 1, und µ > 0 1 2 T 2 µ ξ D f (x̂)ξ + R2 (x̂ + µξ; x̂) 2 1 2 µ (λmin + 2R2 (x̂ + µξ; x̂)/kµξk22 ) > 0 ≥ 2 f (x̂ + µξ) − f (x̂) = für genügend kleine µ > 0, d.h. x̂ ist ein striktes lokales Minimum von f . Ist D2 f (x̂) negativ definit, so erhält man genauso, daß jedes ξ ∈ IRn , ξ 6= 0, eine Abstiegsrichtung ist, x̂ also ein striktes lokales Maximum ist. Ist D2 f (x̂) indefinit, so existieren ξ 1 , ξ 2 ∈ IRn mit (ξ 1 )T D2 f (x̂)ξ 1 < 0 < (ξ 2 )T D2 f (x̂)ξ 2 , und hieraus erhält man wie eben für genügend kleine λ > 0 f (x̂ + λξ 1 ) < f (x̂) < f (x̂ + λξ 2 ), d.h. x̂ ist ein Sattelpunkt. Bemerkung 23.31. Aus dem Satz 23.30. ergeben sich für einen stationären Punkt die folgenden Implikationen: x̂ lokales Minimum ⇐= x̂ striktes lokales Minimum ⇓ 2 D f (x̂) positiv semidefinit ⇑ ⇐= 2 D f (x̂) positiv definit. 68 KAPITEL 23. ANWENDUNGEN DER DIFFERENTIALRECHNUNG In keinemFall kann man die Implikationenumkehren. Es ist z.B. für f (x) = x21 − x42 0 2 0 und x̂ = die Hessematrix D2 f (0) = positiv semidefinit, aber x̂ ist ein 0 0 0 0 ein striktes lokales Minimum, aber Sattelpunkt, und für f (x) = x41 + x42 ist x̂ = 0 D2 f (0) = 0 ist nicht positiv definit. 2 Bemerkung 23.32. Der erste Teil des Beweises von Satz 23.30. zeigt, daß Richtungen ξ ∈ IRn mit ξ T D2 f (x̂)ξ < 0 in stationären Punkten x̂ von f Abstiegsrich 2 0 , und alle Richtungen tungen sind. Im Beispiel f (x) = x21 −x22 ist D2 f (0) = 0 −2 0 , denn ξ ∈ IR2 mit |ξ2 | > |ξ1 | sind Abstiegsrichtungen in 0 ξ T D2 f (0)ξ = 2ξ12 − 2ξ22 < 0. 2 Beispiel 23.33. f (x, y) = (y + 1)2 (x − 1) + 3x3 − 9x2 . Dann gilt Df (x, y) = (y + 1)2 + 9x2 − 18x, 2(y + 1)(x − 1) , und die stationären Punkte von f sind (1, 2), (1, −4), (0, −1), (2, −1). Es gilt 18(x − 1) 2(y + 1) D f (x, y) = . 2(y + 1) 2(x − 1) 2 Die Punkte (1, 2) und (1, −4) sind Sattelpunkte, denn die Matrizen 0 6 D f (1, 2) = 6 0 2 0 −6 und D f (1, −4) = −6 0 2 haben beide die Eigenwerte λ1 = 6, λ2 = −6 und sind damit indefinit. In (0, −1) hat f ein striktes lokales Maximum, denn −18 0 D f (0, −1) = 0 −2 2 ist negativ definit, und in (2, −1) hat f ein striktes lokales Minimum, denn D2 f (2, −1) = 18 0 0 2 ist positiv definit. Die Abbildung 23.12 zeigt ein Höhenlinienbild von f . 2 23.4. EXTREMWERTE 69 Abbildung 23.12 Höhenlinienbild von f (x, y) = (y + 1)2 (x − 1) + 3x3 − 9x2 Beispiel 23.34. Methode der kleinsten Quadrate: Es seien A ∈ IR(m,n) und b ∈ IRm mit m ≥ n und f (x) := kAx − bk22 = m X n X ( aij xj − bi )2 . i=1 j=1 Dann gilt Dk f (x) = m X i=1 2( n X aij xj − bi )aik , j=1 d.h. Df (x) = 2(AT (Ax − b))T . Die notwendige Bedingung Df (x) = 0 entspricht also genau den Normalgleichungen aus Kapitel ??. Besitzt A maximalen Rang, so hat Df (x) = 0 die eindeutige Lösung x̂ = (AT A)−1 AT b, und diese ist striktes Minimum von f , denn D2 f (x) = 2AT A ist wegen ξ T (AT A)ξ = kAξk22 > 0 für alle ξ 6= 0 2 positiv definit. Nach Satz ?? ist die symmetrische Matrix A ∈ IR(n,n) genau dann positiv definit, wenn alle Hauptunterdeterminanten a11 a12 . . . a1i det . . . . . . . . . . . . . . . . . , i = 1, . . . , n ai1 ai2 . . . aii 70 KAPITEL 23. ANWENDUNGEN DER DIFFERENTIALRECHNUNG positiv sind. Für n = 2 erhält man insbesondere, daß A genau dann positiv definit ist, wenn det A > 0 und a11 > 0 gilt, daß A genau dann negativ definit ist, wenn −A positiv definit ist, d.h. wenn det A > 0 und a11 < 0 gilt, und daß A genau dann indefinit ist, wenn det A < 0 gilt. Damit erhält man aus Satz 23.30. Satz 23.35. Es sei f : IR2 ⊃ D → IR eine C 2 -Funktion, D offen und x̂ ∈ D ein stationärer Punkt von f . Es sei d := D12 f (x̂) · D22 f (x̂) − (D1 D2 f (x̂))2 die Determinante der Hessematrix von f in x̂. f besitzt in x̂ ein striktes lokales Minimum, falls d > 0 und D12 f (x̂) > 0 gilt, ein striktes lokales Maximum, falls d > 0 und D12 f (x̂) < 0 gilt, und einen Sattelpunkt, falls d < 0 gilt. Im Falle d = 0 ist keine Entscheidung möglich. 23.5 Extremwerte von Funktionen unter Nebenbedingungen In vielen Anwendungen (z.B. Bewegungen von Körpern unter Berücksichtigung von Zwangskräften) treten restringierte Minimierungsprobleme der folgenden Gestalt auf. Gegeben seien Funktionen f : IRn → IR, g : IRn → IRm , h : IRn → IRp . Bestimme ein (lokales oder globales) Extremum von f in der Menge der zulässigen Punkte M := {x ∈ IRn : g(x) = 0, h(x) ≥ 0}. Man sagt kurz, daß f unter den Nebenbedingungen g(x) = 0 und h(x) ≥ 0 minimiert bzw. maximiert werden soll. Dabei ist das Ungleichungszeichen zwischen den Vektoren h(x) und 0 komponentenweise zu verstehen, d.h. hj (x) ≥ 0 für alle j = 1, . . . , p. 23.5. EXTREMWERTE UNTER NEBENBEDINGUNGEN 23.5.1 71 Gleichungsnebenbedingungen Wir betrachten zunächst den Fall, daß keine Ungleichungs- sondern nur Gleichungsrestriktionen vorliegen, d.h. Gegeben seien die Funktionen f : IRn ⊃ D → IR, g : IRn ⊃ D → IRm . Bestimme ein (lokales oder globales) Extremum von f in M := {x ∈ IRn : g(x) = 0}. Es ist manchmal möglich, die Nebenbedingungen g1 (x) = 0, . . . , gm (x) = 0 nach m Variablen aufzulösen, so daß also z.B. x1 = φ1 (xm+1 , . . . , xn ), . . . , xm = φm (xm+1 , . . . , xn ) mit bekannten Funktionen φi : IRn−m → IR gilt. In diesem Fall kann man das Problem ersetzen durch das freie Minimierungsproblem für die Funktion F (xm+1 , . . . , xn ) := f (φ1 (xm+1 , . . . , xn ), . . . , φm (xm+1 , . . . , xn ), xm+1 , . . . , xn ) und kann die Sätze 23.25., 23.30. und 23.35. anwenden. Beispiel 23.36. Gegeben sei die Ellipse E = {(x, y) : x2 y 2 + 2 ≤ 1}. a2 b Man bestimme das eingeschriebene achsenparallele Rechteck mit maximaler Fläche. Abbildung 23.13 Liegen die Eckpunkte des Rechtecks nicht auf der Ellipse, so kann man es sicher noch vergrößern. Wir haben daher f (x, y) := 4xy unter der Nebenbedingung g(x, y) := x2 y 2 + 2 −1=0 a2 b 72 KAPITEL 23. ANWENDUNGEN DER DIFFERENTIALRECHNUNG zu maximieren. q Löst man g(x, y) = 0 z.B. nach x auf: x = φ(y) := a 1 − y 2 /b2 und setzt man in f q ein, so hat man F (y) := 4ya 1 − y 2 /b2 auf dem Intervall [−b, b] zu maximieren. Man erhält aus s 0 F (y) = 4a y2 y2 1 1− 2 − 2 q b b 1− y2 b2 =0 b a die Lösung ŷ = √ und durch Einsetzen in g(x, y) = 0 folgt x̂ = √ . 2 2 2 Das folgende Beispiel zeigt, daß bei dieser Auflösung allerdings Vorsicht geboten ist. Beispiel 23.37. Wir bestimmen das Minimum der Funktion f (x, y) := x2 + y 2 unter der Nebenbedingung g(x, y) := x2 − y 2 − 1 = 0. Auflösen von g(x, y) = 0 nach y 2 und Einsetzen in f liefert √ F (x) := f (x, ± x2 − 1) = 2x2 − 1. Wegen F 0 (x) = 4x = 0 erhält man x = 0 und damit den Widerspruch y 2 = −1. Kann man hieraus schließen, daß die stetige Funktion f kein Minimum auf der Menge {(x, y) : g(x, y) = 0} annimmt? Nein, wir haben das Restringierungsproblem nicht sorgfältig genug aufgelöst. Es gilt nämlich {x ∈ IR : g(x, y) = 0 ist lösbar} = {x : |x| ≥ 1}, und daher ist die korrekte Auflösung Minimiere F (x) unter der Nebenbedingung |x| ≥ 1. 2 In vielen Fällen ist die explizite Auflösung der Nebenbedingung nach m der n Variablen nicht möglich. Dann hilft häufig die Lagrangesche Multiplikatorenregel, die wir nun herleiten wollen. Als Hilfsmittel benötigen wir 23.5. EXTREMWERTE UNTER NEBENBEDINGUNGEN 73 Satz 23.38. Es seien gi : IRn ⊃ D → IR, i = 1, . . . , m < n, k ≥ 1 mal stetig differenzierbare Funktionen in der offenen Menge D. Es sei x̂ ∈ D mit gi (x̂) = 0, i = 1, . . . , m, und es seien die Vektoren Dgi (x̂), i = 1, . . . , m, linear unabhängig. Es sei ξ ∈ IRn \ {0} mit Dgi (x̂)ξ = 0, i = 1, . . . , m. Dann existiert t0 > 0 und eine k mal stetig differenzierbare Kurve x : [−t0 , t0 ] → IRn , so daß x(0) = x̂, d x(0) = ξ, gi (x(t)) = 0, i = 1, . . . , m, t ∈ [−t0 , t0 ]. dt Bemerkung 23.39. Wegen des Satzes über implizite Funktionen ist M := {x ∈ D : gi (x) = 0, i = 1, . . . , m} (lokal) eine (n − m)-dimensionale Fläche in IRn und wegen Dgi (x̂)ξ = 0 ist ξ ein Vektor der Tangentialfläche in x̂ an M . Satz 23.38. besagt, daß es eine stetig differenzierbare Kurve x in M gibt, die in x̂ die Tangenten2 richtung ξ hat. Abbildung 23.14 Beweis: Die Matrix G mit den Zeilen Dgi (x), i = 1, . . . , m, hat in x̂ (und damit auch in einer Umgebung von x̂) den Rang m, und wir können o.B.d.A. annehmen, daß in der Zerlegung G = (G1 , G2 ), G1 ∈ IR(m,m) , G2 ∈ IR(m,n−m) , die Matrix G1 regulär ist. x1 ξ1 Zerlegt man x = ,ξ= entsprechend, so existiert nach dem Satz über x2 ξ2 implizite Funktionen eine Abbildung φ : U (x̂2 ) → U (x̂1 ) mit gi (φ(x2 ), x2 ) = 0, i = 1, . . . , m, x2 ∈ U (x̂2 ). Hiermit definieren wir x(t) := φ(x̂2 + tξ 2 ) x1 (t) =: , t ∈ [−t0 , t0 ], x̂2 + tξ 2 x2 (t) wobei t0 > 0 so gewählt ist, daß x̂2 + tξ 2 ∈ U (x̂2 ) für alle t ∈ [−t0 , t0 ] gilt. Offensichtlich ist x(0) = x̂, gi (x(t)) = 0 für i = 1, . . . , m und t ∈ [−t0 , t0 ] sowie wegen G(x̂)ξ = 0, d.h. ξ 1 = −G−1 1 (x̂)G2 (x̂)ξ 2 , und Satz 23.9. d x(0) = dt φ0 (x02 )ξ 2 ξ2 ! = −G−1 1 (x̂)G2 (x̂)ξ 2 ξ2 ! = ξ. 74 KAPITEL 23. ANWENDUNGEN DER DIFFERENTIALRECHNUNG Bemerkung 23.40. Die lineare Unabhängigkeit der Dgi (x̂), i = 1, . . . , m, ist wesentlich, denn für n = 2 und 0 2 2 gilt Dg(x̂) = g(x) = x1 − x2 und x̂ = 0 (0 , 0), d.h. Dg(x̂)ξ = 0für alle ξ ∈ IR2 , aber o n 1 1 ,α : α ∈ IR\{0} nur für ξ ∈ α 1 −1 gibt es ein x(t) mit den Eigenschaften aus 2 Satz 23.38. Abbildung 23.15 Nach dieser Vorbereitung beweisen wir nun Satz 23.41. (Lagrangesche Multiplikatorenregel) Es sei D ⊂ IRn offen, und es seien f : D → IR und g : D → IRm , m < n, C 1 -Funktionen. Es sei x̂ ∈ D ein lokales Extremum von f unter der Bedingung g(x) = 0, und es besitze die Matrix Dg(x̂) den Rang m. Dann existieren λi ∈ IR, i = 1, . . . , m, so daß Df (x̂) = m X λi Dgi (x̂) i=1 gilt. Die λi heißen Lagrangesche Multiplikatoren. Beweis: Wir führen den Beweis dafür, daß x̂ lokales Minimum ist. Existieren keine λi mit der angegebenen Eigenschaft, so sind (da die Dgi (x̂) linear unabhängig sind) die Vektoren Df (x̂), Dg1 (x̂), . . . , Dgm (x̂) linear unabhängig, und das lineare Gleichungssystem Df (x̂)ξ = −1, Dgi (x̂)ξ = 0, i = 1, . . . , m besitzt eine Lösung ξ ∈ IRn . d x(0) = ξ dt und gi (x(t)) = 0, i = 1, . . . , m. Hiermit gilt nach dem Mittelwertsatz für die reelle Wegen Satz 23.38. gibt es eine C 1 -Kurve x : [0, t0 ] → IRn mit x(0) = x̂, Funktion φ(t) := f (x(t)) wegen φ0 (t) = Df (x(t))ẋ(t) und φ0 (0) = Df (x̂)ξ = −1 f (x(t)) = φ(t) = φ(0) + tφ0 (θt) < φ(0) = f (x̂) für genügend kleine t > 0 im Widerspruch zur lokalen Minimalität von f (x̂). 23.5. EXTREMWERTE UNTER NEBENBEDINGUNGEN 75 Bemerkung 23.42. Wir haben den Beweis wieder geführt, indem wir (ähnlich wie in Satz 23.25.) eine Abstiegskurve konstruiert haben, die nun aber nicht mehr gradlinig sein kann, sondern in der durch g(x) = 0 definierten Fläche liegen muß.2 Bemerkung 23.43. Im Falle n = 2, m = 1 kann man sich die Lagrangesche Multiplikatorenregel folgendermaßen veranschaulichen: Existiert kein λ ∈ IR mit Df (x̂) = λDg(x̂), so schneiden sich die Kurven, die durch g(x) = 0 und f (x) = f (x̂) definiert sind, und daher schneidet {x : g(x) = 0} auch die Kurven {x : f (x) = µ} und {x : f (x) = ν} für genügend nahe bei f (x̂) liegende µ < f (x̂) < ν, d.h. x̂ ist kein lokales Extremum unter der Nebenbedingung g(x) = 0.2 Abbildung 23.16 Bemerkung 23.44. Satz 23.41. liefert das folgende Vorgehen zur Lösung der Aufgabe, die Extrema von f (x) unter der Nebenbedingung g(x) = 0 zu bestimmen: Man betrachte das Gleichungssystem m X ∂ ∂ λk f (x) − gk (x) = 0, i = 1, . . . , n ∂xi ∂x i k=1 gj (x) = 0, (23.11) j = 1, . . . , m von n + m Gleichungen in den n + m Unbekannten x1 , . . . , xn , λ1 , . . . , λm . Ist (x, λ) eine Lösung dieses Systems und besitzt die Matrix g 0 (x) den Rang m, so steht x im Verdacht, eine Extremalstelle von f (x) unter der Nebenbedingung g(x) = 0 zu sein. Ob f (x) in x tatsächlich lokal extremal ist, muß dann noch in jedem Fall überprüft werden. Hierzu kann man wieder Bedingungen zweiter Ordnung verwenden (vgl. Satz 23.51.). Ist die Menge M := {x ∈ IRn : g(x) = 0} beschränkt (und dann wegen der Stetigkeit von g auch abgeschlossen), so nimmt die Funktion f auf M ihr globales Minimum und Maximum an. Besitzt das Gleichungssystem (23.11) endlich viele Lösungen (xi , λi ), i = 1, . . . , k, so kann man durch Vergleich der Funktionswerte f (xi ), i = 1, . . . , k, das Minimum und das Maximum von f unter der Nebenbedingung g(x) = 0 ermitteln. 2 76 KAPITEL 23. ANWENDUNGEN DER DIFFERENTIALRECHNUNG Bemerkung 23.45. Man erhält das Gleichungssystem (23.11), indem man die totale Ableitung der Lagrange Funktion L : D × IRm → IR, L(x, λ) := f (x) − m X λk gk (x), k=1 2 gleich Null setzt. Beispiel 23.46. Wir betrachten erneut das Beispiel 23.36.: Maximiere f (x, y) := 4xy unter der Nebenbedingung g(x, y) := x2 y 2 + 2 − 1 = 0. a2 b Dann lautet das Gleichungssystem (23.11) ∂ x ∂ f (x, y) − λ g(x, y) = 4y − 2λ 2 = 0 ∂x ∂x a ∂ ∂ y f (x, y) − λ g(x, y) = 4x − 2λ 2 = 0 ∂y ∂y b 2 2 y x g(x, y) = 2 + 2 − 1 = 0 a b a b mit der Lösung x = √ , y = √ , λ = +2ab. 2 2 2 Beispiel 23.47. Wir betrachten ein homogenes Seil der Länge L > 0 und der Masse M , das in den Punkten (0, 0, z0 ) und (d, 0, zn ), 0 < q d2 + (zn − z0 )2 < L, aufgehängt sei. Wir diskretisieren dieses Problem, indem wir das Seil in n gleich lange Seilstücke zerlegen und durch n + 1 Massenpunkte Mi := (xi , yi , zi ), i = 0, . . . , n, ersetzen, M wobei die inneren Massenpunkte (i = 1, . . . , n − 1) alle die Masse µ := besitzen n (die beiden äußeren die Masse 21 µ) und je zwei benachbarte Massenpunkte durch L eine masselose Stange der Länge ` := verbunden seien. n Das Seil wird die Lage einnehmen, für die die potentielle Energie minimal ist, d.h. mit x := (x1 , . . . , xn−1 )T , y := (y1 , . . . , yn−1 )T , z := (z1 , . . . , zn−1 )T und x0 := 0, xn := d, y0 := 0, yn := 0 gelte: f (x, y, z) := µ n−1 X zi = min! i=1 unter den Nebenbedingungen gi (x, y, z) := (xi − xi−1 )2 + (yi − yi−1 )2 + (zi − zi−1 )2 − `2 = 0 23.5. EXTREMWERTE UNTER NEBENBEDINGUNGEN 77 für i = 1, . . . , n. Notwendig hierfür sind nach der Lagrangeschen Multiplikatorenregel mit L(x, y, z, λ) := f (x, y, z) − n X λi gi (x, y, z) i=1 die Gleichungen ∂ L(x, y, z, λ) = −gi (x, y, z) = 0, i = 1, . . . , n, ∂λi ∂ ∂gj ∂gj+1 L(x, y, z, λ) = −λj (x, y, z) − λj+1 (x, y, z) ∂xj ∂xj ∂xj = −2λj (xj − xj−1 ) + 2λj+1 (xj+1 − xj ) = 0 ∂ L(x, y, z, λ) = −2λj (yj − yj−1 ) + 2λj+1 (yj+1 − yj ) = 0 ∂yj ∂ L(x, y, z, λ) = µ − 2λj (zj − zj−1 ) + 2λj+1 (zj+1 − zj ) = 0, ∂zj für j = 1, . . . , n − 1. Mit der Tridiagonalmatrix λ1 + λ2 −λ2 0 ... 0 0 −λ2 λ + λ −λ . . . 0 0 2 3 3 A= . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 0 0 0 . . . −λn−1 λn + λn−1 gilt also Ax = (0, 0, . . . , λn d)T := bx , Ay = (0, . . . , 0)T , µ Az = (1, . . . , 1)T + (λ1 z0 , 0, . . . , 0, λn zn )T = bz . 2 Die Lagrangeschen Multiplikatoren λi können in diesem Beispiel als verallgemeinerte Kraft interpretiert werden, die zwischen dem i-ten und dem (i−1)-ten Massenpunkt wirkt (Führt man in der Definition von f die Erdbeschleunigung g als Faktor ein und wählt man die äquivalenten Nebenbedingungen gi (x, y, z) = q (xi − xi−1 )2 + (yi − yi−1 )2 + (zi − zi−1 )2 − ` = 0, so stimmen auch die Einheiten. Die Vektoren x, y und z erfüllen aber bei festem λ kein lineares Gleichungssystem mehr). Da in dem Seil nur Zugkräfte auftreten, sind alle λi von einem Vorzeichen, etwa λi > 0. Nach dem Satz ?? von Gerschgorin ist A positiv semidefinit und eine elementare Rechnung zeigt, daß A sogar positiv definit ist. 78 KAPITEL 23. ANWENDUNGEN DER DIFFERENTIALRECHNUNG Aus dem Gleichungssystem Ay = 0 folgt daher y = 0 (das Seil liegt also - wie zu erwarten - ganz in der durch y = 0 definierten Ebene, in der auch die Endpunkte liegen). Die Koordinaten xi , zi und die Kräfte λi hat man aus dem nichtlinearen Gleichungssystem Ax = bx , Az = bz , gi (x, 0, z) = 0, i = 1, . . . , n zu berechnen. Hängt das Seil nur wenig durch, so kann man in erster Näherung alle λi als gleich annehmen (λi = λ, i = 1, . . . , n). In diesem Fall kann man x und z in Abhängigkeit von diesem λ berechnen und aus einer der Zwangsbedingungen gi (x, 0, z) = 0 dann λ ermitteln; man hat dann also nur lineare Gleichungssysteme zu lösen. 2 Beispiel 23.48. Es seien K, M ∈ IR(n,n) symmetrisch und M positiv definit und hiermit xT Kx , x ∈ IRn \ {0}. (23.12) xT M x Dann ist nach dem Rayleighschen Prinzip (Satz ?? zusammen mit der Überführung R(x) := der allgemeinen in die spezielle Eigenwertaufgabe auf Seite ??) das Minimum von R(x) auf IRn \{0} der minimale Eigenwert der allgemeinen Eigenwertaufgabe Kx = λM x und die Minimumstelle x ist der zugehörige Eigenvektor. Dieses Ergebnis erhält man auch so: Wegen der Homogenität von R (R(x) = R(αx) für alle x ∈ IRn und alle α ∈ IR \ {0}) ist das freie Minimierungsproblem für (23.12) äquivalent der restringierten Aufgabe: Minimiere f (x) := xT Kx ) unter der Nebenbedingung g(x) := xT M x − c = 0 (23.13) für jedes feste c > 0. Wegen der positiven Definitheit von M gilt Dg(x) = 2(M x)T 6= 0 für jedes feste x ∈ IRn \{0}, und daher ist nach der Lagrangeschen Multiplikatorenregel notwendig für eine Lösung von (23.13) Df (x) − λDg(x) = 2(Kx − λM x)T = 0T , d.h. x ist Eigenvektor von Kx = λM x, und der Lagrangesche Multiplikator λ ist ein zugehöriger Eigenwert. 2 Wir leiten nun Bedingungen zweiter Ordnung her, mit deren Hilfe wir die Klassifikation der stationären Punkte der Lagrange Funktion vornehmen können. 23.5. EXTREMWERTE UNTER NEBENBEDINGUNGEN 79 Satz 23.49. (Notwendige Bedingungen zweiter Ordnung) Es sei D ⊂ IRn offen, und es seien f : IRn ⊃ D → IR und g : IRn ⊃ D → IRm , m < n, zweimal stetig differenzierbar. Es sei x̂ ∈ D ein lokales Minimum (bzw. Maximum) von f unter der Nebenbedingung g(x) = 0, es seien Dg1 (x̂), . . . , Dgm (x̂) linear unabhängig und λ1 , . . . , λm die Lagrangeschen Multiplikatoren, d.h. Df (x̂) = m X λj Dgj (x̂). j=1 Dann ist die Matrix 2 L(x̂) : = D f (x̂) − m X λj D2 gj (x̂) j=1 positiv semidefinit (bzw. negativ semidefinit) bzgl. des Tangentialraumes Tg := {ξ : Dg(x̂)ξ = 0}, d.h. ξ T L(x̂)ξ ≥ 0 (bzw. ≤ 0) für alle ξ ∈ Tg \ {0}. Beweis: Es sei ξ ∈ Tg \ {0}. Dann gibt es nach Satz 23.38. ein Kurve x : [−t0 , t0 ] → IRn mit x(0) = x̂, ẋ(0) = ξ, g(x(t)) = 0 für alle t ∈ [−t0 , t0 ], und wegen g ∈ C 2 ist diese sogar zweimal stetig differenzierbar. Die reelle Funktion ϕ(t) := f (x(t)), t ∈ [−t0 , t0 ], besitzt in t = 0 ein lokales Minimum. Daher gilt ϕ00 (0) ≥ 0, d.h. wegen ϕ00 (t) = d Df (x(t))ẋ(t)) = ẋ(t)T D2 f (x(t))ẋ(t) + Df (x(t))ẍ(t) dt ξ T D2 f (x̂)ξ + Df (x̂)ẍ(0) ≥ 0. Differenziert man die Gleichung m X λj gj (x(t)) ≡ 0 j=1 zweimal, so erhält man wie oben ξT m X j=1 λj D2 gj (x̂) ξ + m X j=1 λj Dgj (x̂)ẍ(0) = 0, (23.14) 80 KAPITEL 23. ANWENDUNGEN DER DIFFERENTIALRECHNUNG und mit (23.14) erhält man daraus ξ T D2 f (x̂) − m X λj D2 gj (x̂) ξ + Df (x̂) − j=1 = ξ T D2 f (x̂) − m X λj Dgj (x̂) ẍ(0) j=1 m X λj D2 gj (x̂) ξ = ξ T L(x̂)ξ ≥ 0. j=1 Bemerkung 23.50. Ist {v 1 , . . . , v n−m } eine Basis von Tg und ist die Matrix V definiert durch V := v 1 . . . v n−m ∈ IRn−m , so kann man ξ ∈ Tg darstellen als ξ= n−m X αj v j = V α. j=1 Damit folgt ξ T L(x̂)ξ = αT V T L(x̂)V α, und daher ist die Matrix L(x̂) genau dann positiv (semi-) definit bzgl. Tg , wenn die Matrix V T L(x̂)V ∈ IR(n−m,n−m) positiv (semi-) definit im üblichen Sinne ist. 2 Satz 23.51. (Hinreichende Bedingungen zweiter Ordnung) Es sei D ⊂ IRn offen, und es seien f : IRn ⊃ D → IR und g : IRn ⊃ D → IRm , m < n, zweimal stetig differenzierbar. Für x̂ ∈ D gelte g(x̂) = 0, und es existiere λ ∈ IRm mit Df (x̂) − m X λj Dgj (x̂) = 0. j=1 Die Matrix 2 L(x̂) := D f (x̂) − m X λj D2 gj (x̂) j=1 sei positiv definit (bzw. negativ definit) bzgl. Tg : = {ξ ∈ IRn : Dg(x̂)ξ = 0}. Dann ist x̂ ein strikt lokales Minimum (bzw. Maximum) von f unter der Nebenbedingung g(x) = 0. Beweis: Wir nehmen an, daß x̂ kein strikt lokales Minimum von f in der Menge M := {x : g(x) = 0} ist. Dann gibt es eine Folge {xk } ⊂ M \ {x̂} mit lim xk = x̂, k→∞ g(xk ) = 0, f (xk ) ≤ f (x̂). 23.5. EXTREMWERTE UNTER NEBENBEDINGUNGEN 81 Wir schreiben xk als xk =: x̂ + δk ξ k mit kξ k k2 = 1, δk > 0. Da die Einheitskugel {x : kxk2 = 1} kompakt ist, enthält die Folge {ξ k } eine konvergente Teilfolge. Wir nehmen daher ohne Beschränkung der Allgemeinheit an, daß lim ξ k = ξ 0 k→∞ für ein ξ 0 (mit kξ 0 k2 = 1) gilt. Es ist ξ 0 ∈ Tg , denn aus g(xk ) − g(x̂) = 0 folgt 1 g(x̂ + δk ξ k ) − g(x̂) = Dg(x̂)ξ 0 . k→∞ δk 0 = lim Nach dem Taylorschen Satz gibt es Zahlen θjk ∈ [0, 1], j = 0, . . . , m, k ∈ IN, mit 1 0 = gj (xk ) − gj (x̂) = δk Dgj (x̂)ξ k + δk2 (ξ k )T D2 gj (x̂ + θjk ξ k )ξ k 2 1 0 ≥ f (xk ) − f (x̂) = δk Df (x̂)ξ k + δk2 (ξ k )T D2 f (x̂ + θ0k ξ k )ξ k . 2 Multipliziert man die erste Gleichung mit −λj und summiert man auf, so erhält man 0 ≥ δk Df (x̂) − m X λj Dgj (x̂) ξ k j=1 m X 1 + δk2 (ξ k )T D2 f (x̂ + θ0k ξ k ) − λj D2 gj (x̂ + θjk ξ k ) ξ k , 2 j=1 d.h. (ξ k )T D2 f (x̂ + θ0k ξ k ) − m X λj D2 gj (x̂ + θjk ξ k ) ξ k ≤ 0, j=1 und mit k → ∞ erhält man den Widerspruch (ξ 0 )T D2 f (x̂) − m X λj D2 gj (x̂) ξ 0 ≤ 0. j=1 Beispiel 23.52. Wir bestimmen die Extrema von f (x) := x21 − x22 + 2x1 x3 82 KAPITEL 23. ANWENDUNGEN DER DIFFERENTIALRECHNUNG unter der Nebenbedingung g(x) := 2x1 + x3 − 3 = 0. Die notwendige Bedingung hierfür lautet Df (x) = (2x1 + 2x3 , −2x2 , 2x1 ) = λ · Dg(x) = λ · (2 0 1) . Zusammen mit der Nebenbedingung besitzt sie die eindeutige Lösung x̂ = (1 , 0 , 1)T , λ = 2. Die Matrix 2 0 2 L(x̂) = 0 −2 0 2 0 0 ist indefinit (die Eigenwerte sind µ1 = −2, µ2/3 = 1 ± √ 5). Für ξ ∈ IR3 \ {0} mit Dg(x̂)ξ = 0, d.h. 2ξ1 + ξ3 = 0, ξ 6= 0, gilt jedoch ξ1 + ξ3 ξ T L(x̂)ξ = 2ξ T −ξ2 = 2(ξ1 (ξ1 + ξ3 ) − ξ22 + ξ1 ξ3 ) ξ1 = 2(ξ12 − ξ22 + 2ξ1 ξ3 ) = −2(3ξ12 + ξ22 ) < 0. Also nimmt f auf der zulässigen Menge M im Punkt x̂ ein striktes lokales Maximum 2 an. 23.5.2 Gleichungs- und Ungleichungsnebenbedingungen Wir lassen nun zusätzlich Ungleichungsnebenbedingungen zu. Es seien also f : IRn → IR, g : IRn → IRm , h : IRn → Rp , und hiermit die Menge der zulässigen Punkte M := {x ∈ IRn : gj (x) = 0, j = 1, . . . , m, hj (x) ≥ 0, j = 1, . . . , p}. Gesucht ist x̂ ∈ M , so daß f (x̂) ≤ f (x) für alle x ∈ M gilt. 23.5. EXTREMWERTE UNTER NEBENBEDINGUNGEN 83 Beispiel 23.53. f (x, y) := −xy = min!, h1 (x, y) := x ≥ 0, h2 (x, y) := y ≥ 0, h3 (x, y) := 2 − x − y ≥ 0. 2 Wir behandeln das Problem völlig analog dem Minimierungsproblem unter Gleichungsnebenbedingungen. Dazu definieren wir Definition 23.54. Sei x̃ ∈ M ein zulässiger Punkt. Die Nebenbedingung hj (x) ≥ 0 heißt aktiv in x̃, wenn hj (x̃) = 0 gilt, sie heißt inaktiv in x̃, wenn hj (x̃) > 0 gilt. Definition 23.55. Es sei x̃ ∈ M ein zulässiger Punkt und J ⊂ {1, . . . , p} die Menge der Indizes zu in x̃ aktiven Nebenbedingungen. x̃ heißt regulär, wenn die Vektoren Dg1 (x̃), . . . , Dgm (x̃) und Dhj (x̃), j ∈ J, linear unabhängig sind. Satz 23.56. (Notwendige Bedingungen erster Ordnung) Es seien f , g und h stetig differenzierbar, und es sei x̂ ein lokales Minimum von f unter den Nebenbedingungen gj (x) = 0, j = 1, . . . , m, und hj (x) ≥ 0, j = 1, . . . , p. Ist x̂ ein regulärer Punkt, so existieren λ1 , . . . , λm ∈ IR und µ1 , . . . , µp ≥ 0, so daß gilt Df (x̂) − m X λj Dgj (x̂) − j=1 p X µj Dhj (x̂) = 0, (23.15) j=1 p X µj hj (x̂) = 0. (23.16) j=1 Definition 23.57. Die Parameter λj und µj heißen wieder Lagrangesche Multiplikatoren. Die Bedingungen (23.15) und (23.16) heißen Kuhn Tucker Bedingungen. Bemerkung 23.58. Die Kuhn Tucker Bedingungen sind vom mechanischen Standpunkt klar. Bezeichnet f ein Potential und M := {x : hj (x) ≥ 0, j = 1, . . . , p} die Menge der Punkte, in denen ein Massenpunkt liegen kann, so wird er nur in den Punkten eine Ruhelage einnehmen können, in denen seine potentielle Energie minimal ist. Dies sind entweder Punkte x̂, in denen ∇f (x̂) = 0 gilt (also freie Minima 84 KAPITEL 23. ANWENDUNGEN DER DIFFERENTIALRECHNUNG von f ), oder Punkte am Rande von M, wenn der Kraftvektor ∇f (x̂) gleich der Summe der von den “Wänden” ausgeübten Kräfte ist, d.h. Df (x̂) = p X µj Dhj (x̂). j=1 Ist die Restriktion hj (x) inaktiv in x̂, so wird durch die Wand hj (x) = 0 auf den Massenpunkt keine Kraft ausgeübt, d.h. es gilt µj = 0. Ist die Restriktion hj (x) = 0 aktiv in x̂, so wird durch die Wand hj (x) = 0 auf den Massenpunkt in Richtung von Dhj (x̂) (also wegen hj (x) ≥ 0 für alle x ∈ M in den zulässigen Bereich hinein) eine nichtnegative Kraft ausgeübt, d.h. es gilt µj ≥ 0. 2 Zum Beweis von Satz 23.56. benötigen wir das folgende Resultat aus der linearen Algebra: Lemma 23.59. Es sei A ∈ IR(m,n) und b ∈ IRm . Das Gleichungssystem Ax = b ist genau dann lösbar, wenn b ∈ {y ∈ IRm : AT y = 0}⊥ . Beweis: Es gilt {Ax : x ∈ IRn } = {y ∈ IRm : y T Ax = 0 ∀x ∈ IRn } = {y ∈ IRm : (AT y)T x ∀x ∈ IRn } = {y ∈ IRm : AT y = 0}, und daher auch {Ax : x ∈ IRn } = {y ∈ IRm : AT y = 0}⊥ . Beweis: ( von Satz 23.56.) Wegen hj (x̂) ≥ 0 und µj ≥ 0 für alle j ∈ {1, . . . , p} wählen wir µj = 0 für alle inaktiven Restriktionen hj (x̂) > 0. Es sei J := {j : hj (x̂) = 0} die Menge der Indizes zu in x̂ aktiven Restriktionen. Da x̂ lokales Minimum von f unter den Nebenbedingungen gj (x̂) = 0, j = 1, . . . , m, 23.5. EXTREMWERTE UNTER NEBENBEDINGUNGEN 85 hj (x̂) ≥ 0, j = 1, . . . , p, ist, ist x̂ auch lokales Minimum von f unter den Gleichungsnebenbedingungen gj (x) = 0, j = 1, . . . , m, hj (x) = 0, j ∈ J, und da Dgj (x̂), j = 1, . . . , m und Dhj (x̂), j ∈ J, linear unabhängig sind, gibt es nach der Lagrangeschen Multiplikatorenregel λj ∈ IR, j = 1, . . . , m, und µj ∈ IR, j ∈ J, mit (man beachte µj = 0 für j 6∈ J) Df (x̂) − m X λj Dgj (x̂) − j=1 p X µj Dhj (x̂) = 0. j=1 Zu zeigen bleibt also nur noch µj ≥ 0 für alle j ∈ J. Wir nehmen an, daß es ein k ∈ J gibt mit µk < 0, und konstruieren unter dieser Bedingung eine Abstiegskurve für f . Wegen der Regularität von x̂ ist das lineare Gleichungssystem m X Dgj (x̂)ζj + j=1 X Dhj (x̂)ηj = Dhk (x̂) j∈J,j6=k nicht lösbar. Nach Lemma 23.59. gilt daher Dhk (x̂) 6∈ {ξ ∈ IRn : Dgj (x̂)ξ = 0, j = 1, . . . , m, Dhj (x̂)ξ = 0, j ∈ J, j 6= k}⊥ , und daher gibt es ein ξ ∈ IRn mit Dhk (x̂)ξ > 0, Dgj (x̂)ξ = 0, j = 1, . . . , m, Dhj (x̂)ξ = 0, j ∈ J, j 6= k. Nach Satz 23.38. gibt es eine Kurve x : [0, t0 ] → IRn mit gj (x(t)) = 0, j = 1, . . . , m, hj (x(t)) = 0, j ∈ J, j 6= k, und x(0) = x̂, Dhk (x̂)ξ > 0. Da hj (x̂) > 0 für alle j 6∈ J gilt, ist x(t) für alle t ∈ [0, t1 ] für ein t1 ∈ (0, t0 ] zulässig, und es gilt d f (x(t)) = Df (x̂)ξ t=0 dt = m X λj Dgj (x̂)ξ + j=1 X µj Dhj (x̂)ξ j∈J = µk Dhk (x̂)ξ < 0. f fällt also in Richtung der Kurve x(t) strikt im Widerspruch dazu, daß x̂ ein lokales Minimum von f in M ist. 86 KAPITEL 23. ANWENDUNGEN DER DIFFERENTIALRECHNUNG Beispiel 23.60. (Fortsetzung von Beispiel 23.53.) Die Kuhn Tucker Bedingungen lauten 3 X −y 1 0 −1 ∇f (x, y) = = + µ2 + µ3 , µj ∇hj (x, y) = µ1 −x 0 1 −1 j=1 3 X µj hj (x, y) = µ1 x + µ2 y + µ3 (2 − x − y) = 0. j=1 Man rechnet leicht nach, daß diese nur in den Punkten (x1 , y1 )T = (0 , 0)T mit µ1 = (0 , 0 , 0)T und (x2 , y2 )T = (1 , 1)T mit µ2 = (0 , 0 , 1)T erfüllt sind. 2 Satz 23.61. (Notwendige Bedingung zweiter Ordnung) Es seien f , g und h zweimal stetig differenzierbar, und es sei x̂ ein relatives Minimum von f in M = {x ∈ IRn : gj (x) = 0, j = 1, . . . , m, hj (x) ≥ 0, j = 1, . . . , p}. Ist x̂ ein regulärer Punkt von M und bezeichnen λj ∈ IR, j = 1, . . . , m, und µj ≥ 0, j = 1, . . . , p die Langrangeschen Multiplikatoren, so ist die Matrix 2 L(x̂) := D f (x̂) − m X 2 λj D gj (x̂) − j=1 p X µj D2 hj (x̂) j=1 positiv semidefinit auf dem Tangentialraum T := {ξ ∈ IRn : Dgj (x̂)ξ = 0, j = 1, . . . , m, Dhj (x̂)ξ = 0, j ∈ J} der aktiven Restriktionen (d.h. j ∈ J ⇐⇒ hj (x̂) = 0). Beweis: Die Behauptung folgt unmittelbar aus Satz 23.49., da x̂ auch lokales Minimum unter den Gleichungsrestriktionen gj (x) = 0, j = 1, . . . , m, hj (x) = 0, j ∈ J ist. Beispiel 23.62. (Fortsetzung von Beispiel 23.53.) Für beide Punkte, die die Kuhn Tucker Bedingungen erfüllen, gilt 3 X 0 −1 L = D f (xi , yi ) − µj D hj (xi , yi ) = . −1 0 j=1 2 Die Matrix L ist also (auf IR2 ) indefinit. 2 23.5. EXTREMWERTE UNTER NEBENBEDINGUNGEN 87 In (x1 , y1 )T = 0 sind die Ungleichungen h1 (x, y) ≥ 0 und h2 (x, y) ≥ 0 aktiv. Der zugehörige Raum, auf dem die positive Semidefinitheit von L erfüllt sein muß, ist also T = {ξ ∈ IR2 : Dh1 (0)ξ = 0, Dh2 (0)ξ = 0} = {0}, und da hierauf L trivialerweise positiv semidefinit ist, bleibt 0 ein Kandidat für ein lokales Minimum. In (x2 , y2 )T = (1 , 1)T ist nur die Ungleichung h3 (x, y) ≥ 0 aktiv. Der zugehörige Raum T ist dann T = {ξ ∈ IR2 : Dh3 (0)ξ = 0} = {ξ ∈ IR2 : −ξ1 − ξ2 = 0}. Daher folgt für ξ ∈ T \ {0} ξ T Lξ = (ξ1 , −ξ1 ) 0 −1 −1 0 ξ1 −ξ1 = 2ξ12 > 0 und L ist positiv definit auf T . Der Punkt (1 , 1)T ist also ein ebenfalls ein Kandidat für ein lokales Minimum von f unter der Nebenbedingung g(x, y) = 0. 2 Die notwendigen Bedingungen der beiden letzten Sätze sind in vielen Fällen auch hinreichend. Nur wenn Lagrangesche Multiplikatoren µj zu aktiven Restriktionen Null sind (wenn also im Sinne von Bemerkung 23.58. Wände aktiv sind, aber keine Kraft auf den Massenpunkt ausüben), muß die positive Definitheit von L(x̂) auf einer größeren Menge gefordert werden. Satz 23.63. (Hinreichende Bedingungen zweiter Ordnung) Es sei f , g und h zweimal stetig differenzierbar. Es sei x̂ ∈ IRn mit gj (x̂) = 0 für alle j = 1, . . . , m, und hj (x̂) ≥ 0 für alle j = 1, . . . , p. Existieren λ1 , . . . , λm ∈ IR und µ1 , . . . , µp ≥ 0, so daß p X µj hj (x0 ) = 0 j=1 und Df (x̂) − m X λj Dgj (x̂) − j=1 p X µj Dhj (x̂) = 0T j=1 gilt und so daß die Matrix L(x̂) := D2 f (x̂) − m X j=1 λj D2 gj (x̂) − p X j=1 µj D2 hj (x̂) 88 KAPITEL 23. ANWENDUNGEN DER DIFFERENTIALRECHNUNG positiv definit auf dem Raum ˜ T̃ := {ξ ∈ IRn : Dgj (x̂)ξ = 0, j = 1, . . . , m, Dhj (x̂)ξ = 0, j ∈ J} ist, wobei J˜ := {j : hj (x̂) = 0, µj 6= 0}, so ist x̂ ein striktes lokales Minimum von f in M . Beweis: Wir gehen ähnlich wie im Beweis von Satz 23.51. vor und nehmen an, daß x̂ kein striktes lokales Minimum von f in M ist. Dann gibt es eine Folge {xk } ⊂ M \ {0}, die gegen x̂ konvergiert, mit f (xk ) ≤ f (x̂). Wir schreiben xk wieder als xk = x̂+δk ξ k mit kξ k k2 = 1 und δk > 0. Wie vorher können wir ohne Beschränkung der Allgemeinheit annehmen, daß die Folge ξ k gegen ein ξ 0 konvergiert, und hiermit erhält man wieder Df (x̂)ξ 0 ≤ 0, Dgj (x̂)ξ 0 = 0, für alle j = 1, . . . , m, Dhj (x̂)ξ 0 ≥ 0 für alle aktiven Restriktionen. ˜ so können wir wörtlich wie im Beweis von Gilt Dhj (x̂)ξ 0 = 0 für alle j ∈ J, ˜ so erhalten Satz 23.51. den Widerspruch erreichen. Gilt Dhj (x̂)ξ 0 > 0 für ein j0 ∈ J, wir den Widerspruch 0 ≥ Df (x̂)ξ 0 = m X λj Dgj (x̂)ξ 0 + j=1 p X µj Dhj (x̂)ξ 0 j=1 0 ≥ µj0 Dhj0 (x̂)ξ > 0. Bemerkung 23.64. Daß es nicht genügt, die Matrix L(x̂) auf dem Tangentialraum Th des zulässigen Bereiches in x̂ zu untersuchen, zeigen die Höhenlinienbilder in Abbildung ??. In beiden Fällen erfüllt der Punkt x̂ mit dem Lagrange Parameter µ = 0 die Kuhn Tucker Bedingungen und das Verhalten der Funktion f ist auf dem Tangentialraum Th gleich. Erst die Untersuchung von L(x̂) auf T̃ = IR2 zeigt, daß links ein striktes Minimum von f auf M vorliegt und rechts ein Sattelpunkt. 2 23.5. EXTREMWERTE UNTER NEBENBEDINGUNGEN Abbildung 23.17 89 Hinreichende Bedingungen zweiter Ordnung Beispiel 23.65. (Fortsetzung von Beispiel 23.53.) Für (x1 , y1 )T = (0 , 0)T sind alle Lagrangeschen Multiplikatoren µj = 0. Daher gilt T̃ = IR2 , und da L eine indefinite Matrix ist, folgt aus Satz 23.63. nicht, daß (0 , 0)T ein striktes lokales Minimum von f ist. Der Punkt 0 liegt also gerade “in der Lücke” zwischen der notwendigen und der hinreichenden Bedingung zweiter Ordnung. Tatsächlich ist wegen f (x, y) ≤ 0 = f (0) für alle (x, y)T ∈ M der Punkt 0 ein lokales Maximum von f in M . Für (x2 , y2 )T = (1 , 1)T gilt T̃ = T , und da auf T schon die positive Definitheit von L nachgewiesen wurde, ist (1 , 1)T ein striktes lokales Minimum von f in M . Da es das einzige lokale Minimum ist und das globale Minimum von f in der kompakten Menge M angenommen wird, ist (1 , 1)T sogar das globale Minimum von f in M .2 Notwendige und hinreichende Bedingungen für ein Maximum von f in der Menge M erhält man, indem man die entsprechenden Bedingungen für ein Minimum der Funktion f˜ := −f in der Menge umschreibt. Man erhält: Satz 23.66. Ist der reguläre Punkt x̂ ein lokales Maximum von f in M , so gibt es λ1 , . . . , λm ∈ IR und µ1 , . . . , µp ≤ 0, so daß gilt Df (x̂) − m X λj Dgj (x̂) − j=1 p X µj Dhj (x̂) = 0, (23.17) j=1 p X j=1 µj hj (x̂) = 0, (23.18) 90 KAPITEL 23. ANWENDUNGEN DER DIFFERENTIALRECHNUNG und die Matrix L(x̂) ist negativ semidefinit auf T . Sind umgekehrt für x̂ ∈ M die Bedingungen (23.17) und(23.18) erfüllt und ist L(x̂) negativ definit auf dem Teilraum T̃ , so ist x̂ ein striktes lokales Maximum von f in M. 23.6 Numerische Behandlung von freien Minimierungsproblemen Es sei f : IRn → IR eine C 1 -Funktion und x0 eine Näherung für ein (lokales) Minimum von f mit ∇f (x0 ) 6= 0 (sonst ist x0 ein stationärer Punkt von f , also ein Kandidat für ein lokales Minimum). Es sei ξ 0 ∈ IRn gegeben mit Df (x0 )ξ 0 < 0, also eine Abstiegsrichtung für f in x0 . Dann gilt φ(t) < φ(0) = f (x0 ) für φ(t) := f (x0 + tξ 0 ) für alle genügend kleinen t > 0. Wir bestimmen nun t0 > 0, so daß die Funktion φ in t0 ihr (lokales) Minimum (wenigstens näherungsweise) annimmt. Dann gilt f (x1 ) = φ(t0 ) < φ(0) = f (x0 ) für x1 := x0 + t0 ξ 0 , und man kann x1 als verbesserte Näherung für ein Minimum von f betrachten. Diesen Schritt kann man mit x1 an Stelle von x0 und mit einer geeigneten Abstiegsrichtung ξ 1 wiederholen. Lokal den stärksten Abstieg erhält man für (vgl. Kapitel 22) ξ 0 = −∇f (x0 )/k∇f (x0 )k2 . Das entstehende Verfahren mit dieser Wahl der Suchrichtung heißt Methode des steilsten Abstiegs (steepest descent method). Das Verfahren kann sehr langsam werden. Betrachtet man etwa die Funktion f (x1 , x2 ) = 0.01 10000 x21 + x22 , so erhält man für den Startwert x0 = (unter Turbo Pascal 100 7.0) nach 100 Schritten die Näherung x100 = (9.802 · 10−2 , 98.02)T für das Minimum 0. Der Grund hierfür liegt darin, daß die Höhenlinien f (x) = const Ellipsen sind, die in x1 -Richtung sehr schmal (für const = 1 ist die Länge der Halbachse 0.01) und in x2 -Richtung vergleichsweise lang sind (für const = 1 ist die Länge der Halbachse 23.6. NUM. BEHANDLUNG VON MINIMIERUNGSPROBLEMEN 91 1). Die Gradienten weisen (abgesehen von Punkten auf der x2 -Achse) vorwiegend in x1 -Richtung, während das Minimum in x2 -Richtung zu suchen ist. Dies führt zu einem Zick-Zack-Kurs des Verfahrens (vgl. Abbildung 23.17). Abbildung 23.18 Verfahren des steilsten Abstiegs Die nun folgende Klasse von Verfahren verhält sich wesentlich besser. Wir betrachten zunächst die quadratische Funktion 1 f (x) := xT Ax + bT x + c 2 mit einer gegebenen positiv definiten, symmetrischen Matrix A ∈ IR(n,n) , einem Vektor b ∈ IRn und c ∈ IR. Dann gilt ∇f (x) = Ax + b, d.h. f hat den eindeutigen stationären Punkt x̂ = −A−1 b, und wegen D2 f (x) = A ist x̂ das strikte Minimum von f . Es sei ξ 1 , . . . , ξ n ∈ IRn eine Basis des IRn mit (ξ i )T Aξ j = 0 für i 6= j. Dann gilt für x = n P αi ξ i i=1 1 T x Ax + bT x + c 2 n X n n X 1X i T j = αi αj (ξ ) Aξ + αi bT ξ i + c 2 i=1 j=1 i=1 f (x) = = n n X 1X αi2 (ξ i )T Aξ i + αi bT ξ i + c. 2 i=1 i=1 92 KAPITEL 23. ANWENDUNGEN DER DIFFERENTIALRECHNUNG und genauso f (x + tξ k ) = n 1X (α2 (ξ i )T Aξ i + 2 · αi bT ξ i ) + c 2 i=1 i i 6= k 1 + (αk + t)2 (ξ k )T Aξ k + (αk + t)bT ξ k =: φk (t). 2 Es gilt φ0k (t) = (αk + t)(ξ k )T Aξ k + bT ξ k = 0 genau dann, wenn t = tk := −αk − bT ξ k /(ξ k )T Aξ k . Daher führt ein Minimierungsschritt für f ausgehend von x in Richtung von ξ k auf die neue Näherung k x + tk ξ = n X αi ξ i − i=1 i 6= k ξ k bT ξ k . (ξ k )T Aξ k Führt man also die eindimensionale Minimierung ausgehend von irgendeinem x0 ∈ IRn nacheinander für die Richtungen ξ 1 , ξ 2 , ξ 3 , . . . , ξ n aus, erhält man im n-ten Schritt x=− n X ξ k bT ξ k −1 k T k = −A b, (ξ ) Aξ k=1 d.h. man erhält nach n Schritten das Minimum x̂ der quadratischen Funktion. Definition 23.67. Richtungen ξ 1 , . . . , ξ n ∈ IRn \ {0} mit (ξ i )T Aξ j = 0 für i 6= j heißen A-konjugiert. Bemerkung 23.68. Da für positiv definites A ∈ IR(n,n) durch hx, yiA := xT Ay ein inneres Produkt definiert wird, sind die Vektoren ξ 1 , . . . , ξ n ∈ IRn \ {0} genau dann A-konjugiert, wenn sie orthogonal bzgl. h·, ·iA sind. Man kann sie also im Prinzip mit Hilfe des Orthogonalisierungsverfahren von Erhardt Schmidt bestimmen. Dies ist jedoch viel zu aufwendig. 2 Man kann zeigen, daß man A-konjugierte Richtungen ξ 1 , . . . , ξ n während der Minimierung (billig) konstruieren kann. Das folgende Verfahren der konjugierten Gradienten geht auf Hesteness und Stiefel (1952) zurück: 23.6. NUM. BEHANDLUNG VON MINIMIERUNGSPROBLEMEN 93 Abbildung 23.19 Verfahren der konjugierten Gradienten Start: Gegeben x0 ∈ IRn ; 2 berechne ξ 1 := −∇f (x0 ), η0 := k∇f (x0 )k2 Schritt i (i = 1, . . . , n): Gegeben xi−1 , ∇f (xi−1 ), ξ i , ηi−1 . Bestimme ti , so daß f (xi−1 + ti ξ i ) < f (xi−1 + tξ i ) für alle t 6= ti ; setze xi := xi−1 + ti ξ i ; 2 berechne ∇f (xi ) und ηi := k∇f (xi )k2 ; STOP , wenn ηi < ε; setze ξ i+1 := −∇f (xi ) + ηi i ξ. ηi−1 Das Verfahren bricht für eine quadratische Funktion f (spätestens im Schritt n) mit dem Minimum von f ab. Für den Fall n = 2 ist der Verlauf des Verfahrens in Abbildung 23.19 dargestellt. Auch wenn f nicht quadratisch ist, kann das Verfahren der konjugierten Gradienten zur Minimierung verwendet werden. Es hat sehr gute lokale Konvergenzeigenschaften, da jede C 2 -Funktion f in einer Umgebung eines strikten lokalen Minimums x̂ nach dem Taylorschen Satz approximiert werden kann durch die quadratische Funktion 1 q(x) = (x − x̂)T D2 f (x̂)(x − x̂) + Df (x̂)(x − x̂) + f (x̂) 2 mit der positiv (semi-) definiten Matrix D2 f (x̂). 94 KAPITEL 23. ANWENDUNGEN DER DIFFERENTIALRECHNUNG Tabelle 23.10: Verfahren der konjugierten Gradienten m 0 1 2 3 4 5 6 7 xm 1.000000000 2.065631145 2.007702644 1.997662173 2.000281077 1.999943076 2.000004504 1.999999741 ym −0.200000000 −0.398839270 −0.957203611 −0.997424100 −0.998337819 −0.999942672 −0.999958131 −0.999997935 f (xm , ym ) −6.0000000000000 −11.5752719265743 −11.9976190138889 −11.9999442296455 −11.9999965252723 −11.9999999675513 −11.9999999980644 −11.9999999999951 Ist f nicht quadratisch, so bricht das Verfahren nicht nach n Schritten im Minimum ab. Numerische Experimente zeigen, daß es in diesem Fall nicht sinnvoll ist, mit dem Schritt i über n hinaus fortzufahren, sondern daß man nach jeweils n Schritten eine reinen Gradientenschritt (ξ kn+1 := −∇f (xkn ), k = 1, 2, . . .) ausführen und die übrigen ξ i nach der obigen Vorschrift wählen sollte. Das Verfahren wird also nach jeweils n Schritten neu gestartet. Beispiel 23.69. Wir betrachten (Niveaulinienbild auf Seite ??) f (x, y) = (y + 1)2 (x − 1) + 3x3 − 9x2 . Dann erhält man mit dem Verfahren der konjugierten Gradienten die Näherung für das lokale Minimum in Tabelle 23.10. 2 Wir haben bereits erwähnt, daß es sinnvoll ist, stationäre Punkte von f (also Kandidaten für ein lokales Minimum) mit dem Newton Verfahren zur Lösung des nichtlinearen Gleichungssystems ∇f (x) = 0 zu bestimmen, also zu iterieren gemäß xm+1 := xm − (D2 f (xm ))−1 ∇f (xm ). Da hierdurch auch Sattelpunkte angesteuert werden, führt man i.a. keine vollen Newton Schritte wie oben durch, sondern man verwendet bei gegebener Näherung xm die Newton Richtung ξ m := −(D2 f (xm ))−1 ∇f (xm ) als Suchrichtung. Man bestimmt also xm+1 := xm + tm ξ m so, daß f (xm + tm ξ m ) ≤ f (xm + tξ m ) für alle t ≥ 0 (oder wenigstens so, daß tm ein lokales Minimum von φ(t) = f (xm + tξ m ) ist). Ist D2 f (xm ) positiv definit, so auch (D2 f (xm ))−1 , und wegen Df (xm )ξ m = −Df (xm )(D2 f (xm ))−1 Df (xm )T < 0 ist ξ m eine Abstiegsrichtung. 23.6. NUM. BEHANDLUNG VON MINIMIERUNGSPROBLEMEN 95 Tabelle 23.11: BFGS-Verfahren m 0 1 2 3 4 5 6 xm 1.000000000 1.919168277 2.073349767 1.997667297 2.000228747 2.000018894 2.000000015 ym −0.200000000 −0.200000000 −0.816866114 −0.984316600 −0.999353484 −0.999963952 −0.999999978 f (xm , ym ) −6.0000000000000 −11.3545128029037 −11.9143963716546 −11.9997056692756 −11.9999991109609 −11.9999999954876 −12.0000000000000 Da die Berechnung der zweiten Ableitung D2 f (xm ) sehr aufwendig ist, verwendet man in Algorithmen eine Approximation H m für D2 f (xm ) (oder D2 f (xm )−1 ), die man aus xm , ∇f (xm ) und der Approximation H m−1 für D2 f (xm−1 ) berechnen kann. Die entstehenden Verfahren heißen Quasi-Newton Verfahren. Die am häufigsten verwendete Methode dieses Typs ist das Broyden-FletcherGoldfarb-Shanno-Verfahren (kurz BFGS-Verfahren): Start: Gegeben sei x0 ∈ IRn , eine Näherung für ein lokales Minimum von f , und eine positiv definite, symmetrische Matrix B 0 ∈ IR(n,n) . Schritt i (i = 1, 2, . . .): Gegeben xi−1 und B i−1 . berechne: ξ i := −B i−1 ∇f (xi−1 ); bestimme ti > 0, so daß f (xi−1 + ti ξ m ) ≤ f (xi−1 + tξ i ) für alle t ≥ 0 (wenigstens approximativ); setze xi := xi−1 + ti ξ i ; berechne ∆i := ∇f (xi ) − ∇f (xi−1 ), αi := 1/(∆i )T δ i , δ i := xi − xi−1 , βi := 1 + αi (∆i )T B i−1 ∆i B i := B i−1 + αi {βi δ i (δ i )T − δ i (∆i )T B i−1 − B i−1 ∆i (δ i )T } Man kann zeigen, daß im Verlauf des Algorithmus die Matrizen B i positiv definit bleiben, daß die ξ i also Abstiegsrichtungen für f in xi−1 sind. Mit dem BFGS-Verfahren erhält man für f (x, y) = (y + 1)2 (x − 1) + 3x3 − 9x2 die Näherungen in Tabelle 23.11. 96 KAPITEL 23. ANWENDUNGEN DER DIFFERENTIALRECHNUNG 23.7 Nichtlineare Ausgleichsprobleme Abschließend betrachten wir das nichtlineare Ausgleichsproblem. Es seien f : IRn ⊃ D → IRm und y ∈ IRm gegeben mit m ≥ n. Man bestimme x ∈ IRn , so daß kf (x) − yk2 minimal wird. Es sei x0 eine Näherung für ein Minimum. Wir linearisieren f an der Stelle x0 , ersetzen also f (x) durch f̃ (x) = f (x0 ) + Df (x0 )(x − x0 ). Setzt man f̃ für f ein, so erhält man das lineare Ausgleichsproblem Bestimme ξ ∈ IRn , so daß kDf (x0 )ξ − (y − f (x0 ))k2 minimal ist. Dann ist x1 := x0 + ξ i.a. keine bessere Näherung für eine Lösung des nichtlinearen Ausgleichsproblems als x0 , aber es gilt Satz 23.70. Satz 23.70. Es seien x0 ∈ IRn mit Rang Df (x0 ) = n, y − f (x0 ) 6= 0 und ξ ∈ IRn die Lösung des linearen Ausgleichsproblems kDf (x0 )ξ − (y − f (x0 ))k2 = min!. Ist ξ 6= 0, so existiert t̄ > 0, so daß 2 φ(t) := ky − f (x0 + tξ)k2 , t ∈ (0, t̄) streng monoton fällt, d.h. ξ ist eine Abstiegsrichtung für kf (x) − yk2 in x0 . 23.7. NICHTLINEARE AUSGLEICHSPROBLEME 97 Beweis: φ ist stetig differenzierbar und T o d n y − f (x0 + tξ) y − f (x0 + tξ) dt t=0 0 φ (0) = = −2(Df (x0 )ξ)T (y − f (x0 )). Da ξ das lineare Ausgleichsproblem löst, ist ξ auch Lösung der zugehörigen Normalgleichungen Df (x0 )T Df (x0 )ξ = Df (x0 )T (y − f (x0 )), d.h. φ0 (0) = −2ξ T Df (x0 )T (y − f (x0 )) = −2ξ T Df (x0 )T Df (x0 )ξ 2 = −2kDf (x0 )ξk2 < 0. Dieses Ergebnis legt nun den folgenden Algorithmus zur Lösung des nichtlinearen Ausgleichsproblems nahe: Start: Gegeben sei ein Startvektor x0 ∈ IRn . Schritt i (i = 1, 2, . . .): Gegeben xi−1 ; berechne die Lösung ξ i des linearen Ausgleichsproblems kDf (xi−1 )ξ − (y − f (xi−1 ))k2 = min! (mit Householder Transformationen); bestimme das minimale ` ∈ IN0 mit 2 2 ky − f (xi−1 + 2−` ξ i )k2 < ky − f (xi−1 )k2 setze xi := xi−1 + 2−` ξ k . Der angegebene Algorithmus heißt Gauß Newton Verfahren. Mit ` = 0 in jedem Schritt wurde er von Gauß benutzt, um Bahnen von Planetoiden vorherzusagen. Es gibt bessere Schrittweitenstrategien als die hier angegebene schrittweise Halbierung. 98 KAPITEL 23. ANWENDUNGEN DER DIFFERENTIALRECHNUNG Tabelle 23.12: Gauß Newton Verfahren m 0 1 2 3 4 5 6 7 8 9 10 11 12 13 xm 0 10.00000000000000 6.14876214033877 3.90540362558127 3.30542254249197 2.01445622380190 1.28012769560372 1.05146620440749 1.03357181946508 1.03339414968563 1.03339325417899 1.03339324956150 1.03339324955561 1.03339324955506 1.03339324955506 y0m 0.00000000000000 2.15725426511744 3.86325842696234 3.27561123666543 1.88326627386490 1.20757631375102 1.00051076514201 0.98450202132343 0.98435519042950 0.98435449459529 0.98435449093551 0.98435449093087 0.98435449093043 0.98435449093043 rm 5.00000000000000 8.04036508586118 1.23334135895049 1.00518648399760 2.37615193167457 3.63420894517193 3.94851196633348 3.97248530883056 3.97270001636676 3.97270097982488 3.97270098483765 3.97270098484402 3.97270098484462 3.97270098484462 Beispiel 23.71. Gegeben seien die Punkte xj 1 1.5 2 2.5 3 3.5 4 4.5 5 yj 5 4.9 4.8 4.7 4.4 4.1 3.7 2.9 1 in der Ebene. Man bestimme durch Ausgleich einen Kreis K = {(x, y)T : q (x − x0 )2 + (y − y0 )2 = r}, der diesen Punkten möglichst nahe ist, d.h. mit fi (x0 , y0 , r) := q (xi − x0 )2 + (yi − y0 )2 − r, i = 1, . . . , 9 löse man das nichtlineare Ausgleichsproblem k(fi (x0 , y0 , r))i=1,...,9 k2 = min! Mit dem Gauß Newton Verfahren und den (unsinnigen) Startwerten x00 := 10, y00 = 0, r00 := 5 erhält man die Näherungen in Tabelle 23.12. In Abbildung 23.20 wurden die Meßpunkte mit + markiert und die approximierenden Kreise Kj , für j = 3, 4, 5 eingetragen. 2 23.7. NICHTLINEARE AUSGLEICHSPROBLEME Abbildung 23.20Gauß Newton Verfahren 99 Kapitel 24 Integralrechnung bei mehreren Variablen Der Aufbau der Integralrechnung für Funktionen von mehreren Veränderlichen verläuft völlig analog dem eindimensionalen Fall. Eine Schwierigkeit besteht darin, daß man nun nicht mehr so einfache Integrationsgebiete wie eindimensionale Intervalle betrachten kann, sondern daß für die Anwendungen auch krummlinig berandete Integrationsgebiete (Kugeln, Zylinder usw.) von Interesse sind. 24.1 Integrale über rechteckige Bereiche Gegeben sei eine Funktion f : IRn ⊃ D → IR. Gesucht ist das Volumen “unterhalb des Graphen von f ”. Der Einfachheit halber beschränken wir uns zunächst auf den Fall n = 2 (für n > 2 geht alles genauso) und auf ein kompaktes Rechteck D := [a1 , b1 ] × [a2 , b2 ]. Es sei Abbildung 24.1 Z : a1 = x 0 < x 1 < . . . < x n = b 1 , a 2 = y 0 < y 1 < . . . < y m = b 2 eine Zerlegung von D. Es bezeichne |Z| := max{|xi − xi−1 | , |yj − yj−1 |} i,j 24.1. INTEGRALE ÜBER RECHTECKIGE BEREICHE 101 die Feinheit der Zerlegung Z, Dij := [xi−1 , xi ] × [yj−1 , yj ] die Teilrechtecke von Z und µ(Dij ) := (xi − xi−1 )(yj − yj−1 ) den Flächeninhalt des Rechtecks Dij (i = 1, . . . , n, j = 1, . . . , m). Es sei f : D → IR eine beschränkte Funktion. Dann definieren wir die Untersumme von f bzgl. Z durch UZ (f ) := X inf{f (x, y) : (x, y) ∈ Dij )}µ(Dij ) i,j und die Obersumme durch OZ (f ) := X sup{f (x, y) : (x, y) ∈ Dij )}µ(Dij ). i,j Wie im eindimensionalen Fall gilt: (i) Ist Z̃ eine Verfeinerung von Z (d.h. Z̃ entsteht aus Z unter Hinzunahme von Punkten xi oder yj ), so gilt UZ (f ) ≤ UZ̃ (f ) ≤ OZ̃ (f ) ≤ OZ (f ). (ii) Sind Z und Z̃ beliebige Zerlegungen von D, so gilt UZ (f ) ≤ OZ̃ (f ). Aus (ii) folgt, daß die Menge aller Obersummen nach unten (durch UZ (f ) für festes Z) und die Menge aller Untersummen nach oben beschränkt ist. Daher existieren Z − f (x, y) d(x, y) := sup{UZ (f ) : Z ist Zerlegung von D}, D das Unterintegral von f über D, und Z − f (x, y) d(x, y) := inf{OZ (f ) : Z ist Zerlegung von D}, D das Oberintegral von f über D. 102 KAPITEL 24. INTEGRALRECHNUNG BEI MEHREREN VARIABLEN Definition 24.1. Die beschränkte Funktion f heißt integrierbar über D, wenn Z − f (x, y) d(x, y) = D Z − f (x, y) d(x, y) D gilt. Der gemeinsame Wert heißt dann das Integral von f über D und wird mit Z f (x, y) d(x, y) := D Z − f (x, y) d(x, y) = D Z − f (x, y) d(x, y) D bezeichnet. Bemerkung 24.2. Es ist klar, wie man die obige Definition auf Integrale von beschränkten Funktionen über Quader im IR3 oder allgemeiner über Intervalle D := n × [a , b ] ⊂ IR i i n 2 zu übertragen hat. i=1 Bemerkung 24.3. Will man betonen, daß es sich um ein Integral über eine Teilmenge D ⊂ IR2 oder D ⊂ IR3 handelt, so schreibt man bisweilen auch ZZ f (x, y) d(x, y) (n = 2) D oder Z Z Z f (x, y, z) d(x, y, z) (n = 3). D 2 24.1. INTEGRALE ÜBER RECHTECKIGE BEREICHE 103 Bemerkung 24.4. Wie im eindimensionalen Fall hat das Integral die folgenden Eigenschaften: (i) Z (αf (x) + βg(x)) dx = α D Z Z f (x) dx + β D g(x) dx D (ii) Aus f (x) ≤ g(x) für alle x ∈ D folgt Z f (x) dx ≤ D (iii) Z D Z (iv) 1 dx = n Y Z g(x) dx D (bi − ai ) =: µ(D) i=1 f (x) dx ≤ sup{|f (x)| : x ∈ D}µ(D) D (v) Sind D1 , D2 , D Intervalle mit D = D1 ∪ D2 , µ(D1 ∩ D2 ) = 0, so gilt Z f (x) dx = Z f (x) dx + D1 D Z f (x) dx. D2 (vi) Riemannsches Integrabilitätskriterium: f ist genau dann integrierbar über D, wenn für alle ε > 0 eine Zerlegung Z von D existiert mit OZ (f ) − UZ (f ) ≤ ε. 2 Die Berechnung eines Integrals kann man häufig auf die Berechnung von eindimensionalen Integralen zurückführen: Satz 24.5. (Iterierte Integrale; Satz von Fubini) Es sei f : D → IR integrierbar, D := [a, b] × [c, d]. (i) Existiert F (x) := Zd f (x, y) dy für alle x ∈ [a, b], so gilt c ZZ f (x, y) d(x, y) = D Zb Zd a c f (x, y) dy dx. 104 KAPITEL 24. INTEGRALRECHNUNG BEI MEHREREN VARIABLEN (ii) Existiert G(y) := Zb f (x, y) dx für alle y ∈ [c, d], so gilt a ZZ f (x, y) d(x, y) = Zd Zb c D f (x, y) dx dy. a (iii) Existieren F und G, so ist die Reihenfolge der Integrationen vertauschbar. Beweis: Es sei Z : a = x0 < x1 < . . . < xn = b, c = y0 < y1 < . . . < ym = d eine Zerlegung von D. Dann gilt für alle y ∈ [yj−1 , yj ] und alle ξi ∈ [xi−1 , xi ] inf{f (x, y) : (x, y) ∈ Dij } ≤ f (ξi , y) ≤ sup{f (x, y) : (x, y) ∈ Dij }, und daher Zyj (yj − yj−1 ) inf f (x, y) ≤ Dij f (ξi , y) dy ≤ (yj − yj−1 ) sup f (x, y). Dij yj−1 Durch Multiplikation mit (xi − xi−1 ) und Summation über i und j folgt d UZ (f ) ≤ n Z X f (ξi , y) dy (xi − xi−1 ) ≤ OZ (f ). i=1 c Damit ist die Riemannsche Summe von F (x) := Zd f (x, y) dy bzgl. der Zerlegung c Zx : a = x0 < x1 < . . . < xn = b eingeschlossen in UZ (f ) und OZ (f ) und für |Z| → 0 folgt die Behauptung (i). Die Behauptung (ii) folgt genauso und (iii) folgt aus (i) und (ii). Beispiel 24.6. D := [0, 1] × [−2, 3], ZZ f (x, y) d(x, y) = D Z1 Z3 0 = f (x, y) d(x, y) = D = Z1 5 5 1 2 i3 dx = 5x2 − x dx = x y − xy −2 2 2 12 2 0 Z3 Z1 −2 0 Z3 (x2 − xy) dx dy Z3 1 2 i1 1 1 5 x − x y dy = − y dy = . 0 3 2 3 2 12 h1 −2 (x2 − xy) dy dx −2 Z1 h 0 ZZ f (x, y) = x2 − xy. 3 −2 2 24.1. INTEGRALE ÜBER RECHTECKIGE BEREICHE 105 Beispiel 24.7. Man beachte,Zdaß Z aus der Existenz eines der beiden iterierten Integrale nicht die Existenz von f (x, y) d(x, y) folgt. Für die Funktion D 1, f (x, y) := 2x, falls y ∈ Q falls y ∈ /Q existiert für alle y ∈ [0, 1] Z1 f (x, y) dx = 1, 0 und daher auch das iterierte Integral Z1 Z1 f (x, y) dx dy = 1. 0 0 f ist jedoch nicht über [0, 1] × [0, 1] integrierbar, denn für |Z| → 0 gilt UZ (f ) = X min(1, 2xi−1 )(xi − xi−1 )(yj − yj−1 ) i,j = X min(1, 2xi−1 )(xi − xi−1 ) i X = 2 X xi−1 (xi − xi−1 ) + xi−1 ≤ 21 (xi − xi−1 ) → 2 xi−1 > 12 Z1/2 x dx + 0 1 3 = 2 4 und OZ (f ) = X max(1, 2xi )(xi − xi−1 ) i 1 Z 1 5 = (xi − xi−1 ) + 2 xi (xi − xi−1 ) → + 2 x dx = . 2 4 x <1 x ≥1 X X i i 2 1/2 2 2 Beispiel 24.8. Aus der Integrierbarkeit von f folgt nicht die Existenz der iterierten Integrale F (x) := Zd f (x, y) dy und G(y) := c Zb f (x, y) dx, denn die Funktion a 1, f (x, y) := 0, falls y ∈ Q, x = 0.5 sonst ist integrierbar über D := [0, 1] × [0, 1], aber F (0.5) := Z1 0 f (0.5, y) dy existiert nicht. 2 106 KAPITEL 24. INTEGRALRECHNUNG BEI MEHREREN VARIABLEN 24.2 Integrale über kompakte Bereiche Wir erweitern nun den Integralbegriff auf beliebige kompakte Integrationsbereiche D ⊂ IRn . Definition 24.9. Ist f : D → IR beschränkt, so wählen wir das kleinste Intervall n Q := × [a , b ], das D enthält, und setzen f auf Q fort durch i i i=1 f (x), f˜(x) = 0, falls x ∈ D falls x ∈ Q \ D. f heißt integrierbar über D, wenn f˜ integrierbar über Q ist. In diesem Fall setzen wir Z f (x) dx := D Existiert das Integral Z Z f˜(x) dx. Q 1 dx, so nennen wir die Menge D meßbar und µ(D) := D Z 1 dx heißt das Volumen von D. D Schließlich heißt eine Menge D Nullmenge, wenn D meßbar ist und µ(D) = 0 gilt. Satz 24.10. Es sei D ⊂ IRn kompakt. D ist genau dann meßbar, wenn ∂D, der Rand von D, eine Nullmenge ist. Beweis: Es sei Q das kleinste D umfassende Intervall. Dann gilt mit 1, f (x) = 0, für jede Zerlegung Z von Q = [ falls x ∈ D falls x ∈ Q \ D. Qij i,j OZ (f ) − UZ (f ) = X µ(Qij ) = OZ (φ) = OZ (φ) − UZ (φ), Qij ∩∂D6=∅ wobei φ(x) = 1 für alle x ∈ ∂D, φ(x) = 0 für alle x ∈ / ∂D gesetzt ist. Hiermit folgt die Behauptung aus dem Riemannschen Integrabilitätskriterium. Satz 24.11. Ist D ⊂ IRn kompakt und meßbar und f : D → IR stetig, so ist f integrierbar über D. 24.2. INTEGRALE ÜBER KOMPAKTE BEREICHE 107 Beweis: Da D kompakt ist, ist f gleichmäßig stetig auf D, d.h. zu ε > 0 existiert ein δ > 0, so daß |f (x) − f (y)| < ε für alle x, y ∈ D mit kx − yk < δ. Es sei Z eine Zerlegung von Q ⊃ D mit |Z| < δ. Dann gilt OZ (f ) − UZ (f ) = X i,j sup f (x) − inf f (x) µ(Qij ). x∈Qij x∈Qij Wir zerlegen die Menge aller Qij in die Mengen ◦ M1 := {Qij : Qij ⊂D}, M2 := {Qij : Qij ∩ ∂D 6= ∅}, M3 := {Qij : Qij ∩ D = ∅}. Dann folgt sup f (x) − inf f (x) < ε für alle Qij ∈ M1 , x∈Qij x∈Qij sup f (x) − inf f (x) ≤ 2 · max |f (x)| =: c für alle Qij ∈ M2 , x∈Qij x∈Qij x∈D und mit der Funktion φ(x) = 1 für alle x ∈ ∂D und φ(x) = 0 für x ∈ / ∂D (vgl. Beweis von Satz 24.10.) erhält man OZ (f ) − UZ (f ) = X ... + Qij ∈M1 ≤ ε µ(D) + c X ... Qij ∈M2 X µ(Qij ) Qij ∈M2 = ε µ(D) + OZ (φ) → ε µ(D) für |Z| → 0. f ist also nach dem Riemannschen Kriterium integrierbar. Bemerkung 24.12. Die Charakterisierung von allgemeinen meßbaren Mengen ist schwierig. Klar ist jedoch nach Satz 24.10., daß jedes n-dimensionales Intervall meßbar ist, und daß die endliche Vereinigung von meßbaren Mengen meßbar ist. 2 Wir geben (ohne Beweis) eine für die Anwendungen genügend große Klasse von meßbaren Mengen an: 108 KAPITEL 24. INTEGRALRECHNUNG BEI MEHREREN VARIABLEN Abbildung 24.2 Normalbereiche Definition 24.13. Eine Teilmenge D ⊂ IR2 heißt Normalbereich, wenn D die Gestalt D = {(x, y)T ∈ IR2 : a ≤ x ≤ b, φ(x) ≤ y ≤ ψ(x)} oder D = {(x, y)T ∈ IR2 : c ≤ y ≤ d, φ̃(y) ≤ x ≤ ψ̃(y)} hat mit stetigen Funktionen φ, ψ : [a, b] → IR bzw. φ̃, ψ̃ : [c, d] → IR. In den Anwendungen lassen sich die betrachteten Mengen D häufig in Normalbereiche zerlegen: D= n [ Di . i=1 Das Integral kann dann gebietsweise berechnet werden: ZZ f (x, y) d(x, y) = D Abbildung 24.3 n ZZ X f (x, y) d(x, y). i=1 Di Definition 24.14. Eine Menge D ⊂ IR3 heißt Normalbereich, wenn D geschrieben werden kann als D = {(x, y, z)T ∈ IR3 : a ≤ x ≤ b, φ(x) ≤ y ≤ ψ(x), χ(x, y) ≤ z ≤ η(x, y)} mit stetigen Funktionen φ, ψ : [a, b] → IR und χ, η : IR2 → IR (oder für eine geeignete Vertauschung der Variablen x, y, z die obige Gestalt hat). 24.2. INTEGRALE ÜBER KOMPAKTE BEREICHE 109 Allgemeiner heißt eine Menge D ⊂ IRn projizierbar in Richtung xi , wenn es eine meßbare Menge Di ⊂ IRn−1 gibt und stetige Funktionen φ, ψ : Di → IR, so daß D := {(x1 , . . . , xn )T ∈ IRn : x̃ := (x1 , . . . , xi−1 , xi+1 , . . . , xn )T ∈ Di , φ(x̃) ≤ xi ≤ ψ(x̃)}. Di heißt dann Projektion von D in Richtung xi . Projizierbare Mengen (und endliche Vereinigungen davon) sind meßbar. Insbesondere sind also Normalbereiche im IR2 oder IR3 meßbar. In Verallgemeinerung von Satz 24.5., dem Satz über die iterierten Integrale, gilt Satz 24.15. Ist f : IRn ⊃ D → IR stetig und D ⊂ IRn projizierbar in Richtung xi , so gilt mit x̃ := (x1 , . . . , xi−1 , xi+1 , . . . , xn )T Z f (x) dx = D Z ψ( Z x̃) f (x1 , . . . , xn ) dxi dx̃. Di φ(x̃) Bemerkung 24.16. Ist Di erneut projizierbar in Richtung xj , so kann man die Dimension des Integrationsbereichs auf n−2 reduzieren. Für geeignete Mengen kann man so das Integral über D ⊂ IRn auf ein n-fach iteriertes Integral reduzieren. Beispiel 24.17. Es sei f : IR2 ⊃ D → IR mit D := {(x, y)T : 0 ≤ x ≤ 1, 0 ≤ y ≤ x2 } und f (x, y) = x + y. Dann ist ZZ f (x, y) d(x, y) = D = (x + y) dy dx 0 0 Z1 h 0 = Z1 Zx2 1 i xy + y 2 dx 2 0 Z1 0 x2 1 7 x3 + x4 dx = . 2 20 Abbildung 24.4 D kann auch in Richtung y projiziert werden: D = {(x, y)T : 0 ≤ y ≤ 1, √ y ≤ x ≤ 1}. 2 110 KAPITEL 24. INTEGRALRECHNUNG BEI MEHREREN VARIABLEN Hiermit gilt ZZ f (x, y) d(x, y) = D Z1 Z1 0 = √ 0 y Z1 0 (x + y) dx dy = Z1 h i1 1 2 x + xy √ dy y 2 3 1 1 7 + y − y − y 2 dy = . 2 2 20 2 Beispiel 24.18. Der Durchschnitt des positiven Oktanten mit der Kugel mit dem Radius R und dem Mittelpunkt 0 hat die Darstellung q √ D := {(x, y, z)T : 0 ≤ x ≤ R, 0 ≤ y ≤ R2 − x2 , 0 ≤ z ≤ R2 − x2 − y 2 }, ist also ein Normalbereich. Für das Volumen von D gilt √ √ V = = = Z Z Z 0 ZR 0 = d(x, y, z) = D √ ZR RZ2 −x2q ZR 0 ZR 0 R Z2 −x2 0 R2 −x2 −y 2 Z dz dy dx 0 R2 − x2 − y 2 dy dx 0 yq 2 1 y R − x2 − y 2 + (R2 − x2 ) arcsin √ 2 2 2 R − x2 √R2 −x2 dx 0 π 3 1 3 π 3 1 2 (R − x2 ) arcsin(1) dx = R − R = R . 2 4 3 6 2 Wie für Funktionen einer reellen Variablen gilt für Funktionen von mehreren Veränderlichen ein Mittelwertsatz, der unmittelbar aus der Monotonie des Integrals folgt. Satz 24.19. (Mittelwertsatz der Integralrechnung) Es sei D ⊂ IRn meßbar und kompakt und f : D → IR integrierbar über D. Dann gilt µ(D) inf f (x) ≤ x∈D Z D f (x)dx ≤ µ(D) sup f (x)dx, x∈D wobei µ(D) das Volumen von D bezeichnet. Ist D zusammenhängend und f stetig auf D, so gibt es ein x0 ∈ D mit Z D f (x)dx = f (x0 )µ(D). 24.3. MODELLIERUNG DURCH RIEMANN SUMMEN 24.3 111 Modellierung durch Riemann Summen Wir haben bisher nur Zerlegungen eines D umfassenden Rechtecks Q in Rechtecke betrachtet und hiermit das Integral einer Funktion f über D erklärt. Wir betrachten nun allgemeinere Zerlegungen. Definition 24.20. Es sei D ⊂ IRn eine meßbare, kompakte Menge. Es seien Di ⊂ IRn , i = 1, . . . , m, meßbare, kompakte, zusammenhängende Mengen mit D = i 6= j. m [ ◦ ◦ Di , Di ∩ Dj = ∅ für i=1 Dann heißt Z : D1 , . . . , Dm eine Zerlegung von D. Für Di bezeichnen wir δ(Di ) := sup{kx − yk : x, y ∈ Di } den Durchmesser der Menge Di . Abbildung 24.5 Dann heißt |Z| := max{δ(Di ) : i = 1, . . . , m} die Feinheit der Zerlegung Z (wählt man k·k als Maximumnorm, so stimmt dieser Begriff mit dem vorher benutzten für Rechteckzerlegungen überein). Es sei nun f eine stetige Funktion auf D, Z : D1 , . . . , Dm eine Zerlegung von D und ξ i ∈ Di , i = 1, . . . , m. Dann heißt RZ (f ) := m X f (ξ i ) µ(Di ) i=1 Riemannsche Summe von f zur Zerlegung Z. Betrachtet man eine Folge Z1 , Z2 , . . . von Zerlegungen von D mit |Zk | → 0 für k → ∞ und zu jedem Zk eine Riemannsche Summe RZk (f ) der stetigen Funktion f ,so kann man unter Ausnutzung der gleichmäßigen Stetigkeit von f auf D zeigen, daß lim RZk (f ) = Z k→∞ f (x) dx D gilt. Riemannsche Summen werden verwendet, um Begriffe, die für diskrete Systeme eingeführt sind, auf kontinuierliche Systeme zu übertragen. Man zerlegt dazu das 112 KAPITEL 24. INTEGRALRECHNUNG BEI MEHREREN VARIABLEN kontinuierliche Objekt in endlich viele Elemente, trifft für die einzelnen Elemente vereinfachende, plausible Annahmen und summiert die Einflüsse der Elemente auf. Interpretiert man die entstehende Summe als eine Riemannsche Summe, so erhält man bei Verfeinerung der Zerlegung in der Grenze ein Integral über das betrachtete Objekt, das als Definition des zu übertragenden Begriffs für das kontinuierliche System verwendet wird. Wir erläutern das Vorgehen an zwei Beispielen: Der Definition des Schwerpunkts eines Körpers und der Definition des Trägheitsmoments eines Körpers bzgl. einer Achse. Beispiel 24.21. (Schwerpunkt eines Körpers) Diskretes System: Der Schwerpunkt eines Systems von k Massenpunkten mit den Massen m1 , . . . , mk und den Ortsvektoren x1 , . . . , xk ist xs = wobei m := k P k 1 X mj xj , m j=1 mj die Gesamtmasse des Systems bezeichnet. j=1 Kontinuierliches System: Ist D ⊂ IR3 ein Körper und ist ρ(x) die Dichte dieses Körpers, so zerlegen wir D in Teilkörper D1 , . . . , Dk . Wählt man in jedem Dj einen Punkt xj aus, so ist die Masse von Dj ungefähr ρ(xj )·µ(Dj ), wobei µ(Dj ) das Volumen von Dj bezeichnet, und für den Schwerpunkt von D gilt approximativ xs ≈ k X ρ(xj )xj µ(Dj ) X k j=1 ρ(xj ) µ(Dj ), j=1 und durch Verfeinerung der Zerlegung erhält man den Schwerpunkt von D xs = Z ρ(x)x dx Z D ρ(x) dx. D Dabei ist das Integral im Zähler komponentenweise zu verstehen. Im Nenner steht 2 wieder die Gesamtmasse. Beispiel 24.22. Das Volumen des positiven Kugeloktanten T D := {(x, y, z) : 0 ≤ x ≤ R, 0 ≤ y ≤ √ R2 − x2 , 0≤z≤ q R 2 − x2 − y 2 } 24.3. MODELLIERUNG DURCH RIEMANN SUMMEN 113 π wurde bereits berechnet als µ(D) = R3 . Bei konstanter Dichte ρ ist also die Masse 6 π 3 m = R ρ. 6 Für die erste Komponente des Schwerpunktes gilt daher √ √ m · xs = Z Z Z ρx d(x, y, z) = ρ ZR x 0 D R Z2 −x2 0 R2 −x2 −y 2 Z dz dy dx. 0 Das innere Integral wurde bereits bei der Volumenberechnung ermittelt. Damit gilt m · xs = ρ ZR 0 π 1 1 π π x (R2 − x2 ) dx = ρ R4 − R4 = ρR4 4 4 2 4 16 3 und aus Symmetriegründen ys = zs = xs = R. 8 3 1 Der Schwerpunkt ist also R 1 . 8 1 2 Beispiel 24.23. (Trägheitsmoment eines Körpers) Diskretes System: Das Trägheitsmoment eines Massenpunktes bzgl. einer Achse ist J = mr2 , wobei m die Masse und r den Abstand des Massenpunktes von der Drehachse bezeichnet. Entsprechend ist das Trägheitsmoment eines Systems von n Massenpunkten mit den Massen mi und den Abständen ri von der Drehachse J= n X mi ri2 . i=1 Kontinuierliches System: Ist D ein Körper mit der Dichte ρ(x) und bezeichnet D = m [ Di eine Zerlegung des Körpers, so gilt für das Trägheitsmoment des Körpers i=1 näherungsweise J≈ m X r(xi )2 ρ(xi ) µ(Di ), i=1 i wobei x ∈ Di gewählt ist und ri den Abstand von xi von der Drehachse bezeichnet. Verfeinert man die Zerlegung von D, so konvergiert die Riemannsche Summe der rechten Seite gegen das Integral von r(x)2 ρ(x), und man erhält das Trägheitsmoment J= Z ρ(x) r(x)2 dx. D Ist die Drehachse z.B. die x1 -Achse, so gilt r(x)2 = x22 + x23 , und man erhält noch spezieller J= Z Z Z D ρ(x)(x22 + x23 ) dx1 dx2 dx3 . 2 114 KAPITEL 24. INTEGRALRECHNUNG BEI MEHREREN VARIABLEN Beispiel 24.24. Als Beispiel betrachten wir einen homogenen Zylinder der Dichte ρ mit dem Radius R und der Höhe h. Dann erhält man das Trägheitsmoment bzgl. der zAchse Abbildung 24.6 h/2 ZR Z Jz = ρ √ R Z2 −x2 2 2 (x + y ) dy dx dz = ρh √ −h/2 −R − R2 −x2 = ρh ZR = ρh ZR −R √ R Z2 −x2 (x2 + y 2 ) dy dx √ −R − R2 −x2 1 x y + y3 3 −R ZR 2 √R2 −x2 √ − R2 −x2 dx 2 2√ 2 4 √ R R − x2 + x2 R2 − x2 dx, 3 3 und mit der Variablentransformation x = R sin t folgt Jz = ρh π/2 Z −π/2 = ρhR 4 4 2 3 R cos t + R3 sin2 t cos t R cos t dt 3 3 π/2 Z −π/2 1 2 cos2 t + sin2 2t dt 3 3 π π 1 = ρhR + = πρhR4 . 3 6 2 Für das Trägheitsmoment bzgl. der x-Achse erhält man 4 Jx = ρ ZR √ R Z2 −x2 h/2 Z (y 2 + z 2 ) dz dy dx √ −R − R2 −x2 −h/2 √ R ZR Z2 −x2 2 = ρ hy + √ −R − R2 −x2 = ρ ZR −R 1 3 h dy dx 12 3 2 √ 2 1 √ h R − x2 + h3 R2 − x2 dx, 3 6 und mit der Substitution x = R sin t Jx = ρ π/2 Z −π/2 2 4 1 πhR2 hR cos4 t + h3 R2 cos2 t) dt = ρ (3R2 + h2 ). 3 6 12 24.4. DER TRANSFORMATIONSSATZ FÜR INTEGRALE 115 2 24.4 Der Transformationssatz für Integrale In vielen Fällen ist die Benutzung von kartesischen Koordinaten bei der Berechnung mehrfacher Integrale nicht zweckmäßig. Häufig kann man den Integranden oder den Rand des Bereichs D in einem anderen Koordinatensystem einfacher darstellen. Wir verschaffen uns daher eine Regel für die Transformation von Integralen, die an die Z Z dx Stelle der Substitutionsregel f (x) dx = f (x(t)) dt im eindimensionalen Fall dt tritt. Vor dem allgemeinen Fall betrachten wir zunächst als Beispiel die Polarkoordinaten in der Ebene. Wir zerlegen den Bereich in krummlinige Rechtecke, die durch Kreisbögen r = const und durch Geraden ϕ = const begrenzt werden. Die Fläche eines solchen Rechtecks ist rn ∆ϕ∆r, wobei rn der Radius des mittleren Kreises des n-ten Rechtecks ist. Abbildung 24.7 Ist fn der Funktionswert in einem Punkt des Rechtecks, so erhalten wir als Näherung für das Integral bei dieser Zerlegung die Riemann Summe X fn rn ∆r∆ϕ, und bei n Verfeinerung der Zerlegung werden diese Summen gegen das Doppelintegral Z Z f (r, ϕ)r d(r, ϕ) konvergieren. Beispiel 24.25. Als Volumen des positiven Kugeloktanten mit Radius R erhält man hiermit (einfacher als auf Seite 110) µ(D) = ZR √ R Z2 −x2q R2 − x2 − y 2 dy dx 0 0 π 2 = Z ZR √ R2 − r2 r dr dϕ 0 0 3 π 1 2 − (R − r2 ) 2 2 3 = R = 0 π 3 R . 6 116 KAPITEL 24. INTEGRALRECHNUNG BEI MEHREREN VARIABLEN 2 Abbildung 24.8 Koordinatentransformation Wir betrachten nun den allgemeinen Fall einer Koordinatentransformation im IRn Φ : IRn ⊃ U → D = Φ(U ) ⊂ IRn , Φ(u) = x, und fragen, wie man das Integral Z f (x) dx auf die Koordinaten (u1 , . . . , un )T ∈ U D transformieren kann. Wir beweisen den Transformationssatz (Satz 24.26.) nicht, sondern beschreiben nur die Beweisidee und machen so das Ergebnis plausibel. Es sei Q ein Quader in IRn , der U umfaßt, und sei Z eine Zerlegung von Q in Teilquader Qj . Dann kann man zeigen, daß (unter noch zu präzisierenden Voraussetzungen über Φ) durch Φ(Qj ) eine allgemeine Zerlegung von Φ(Q) ⊃ Φ(U ) = D ist. Setzt man f : D → IR durch f (x) = 0 für x ∈ Φ(Q) \ D auf Φ(Q) fort, so gilt mit xj ∈ Φ(Qj ) Z D f (x) dx ≈ X f (xj ) µ(Φ(Qj )), j wobei die Riemannschen Summen bei Verfeinerung der Zerlegung gegen das Integral konvergieren. Will man das Integral umschreiben in ein Integral über U , so muß man untersuchen, in welcher Beziehung die Volumina µ(Qj ) und µ(Φ(Qj )) zueinander stehen. 24.4. DER TRANSFORMATIONSSATZ FÜR INTEGRALE 117 Ein Quader Qj im u-Bereich habe die Kanten ∆1 e1 , . . . , ∆n en (ei die Einheitsvektoren, ∆i die Kantenlängen), die im Punkt u0 angeheftet seien. Dann gilt für das Volumen von Qj µ(Qj ) = n Y ∆k . k=1 Ist Qj ein “kleiner” Quader (d.h. alle ∆i klein), so ist das Bild Φ(Qj ) in erster Näherung ein Parallelotop, das von den Vektoren Φ(u0 + ∆i ei ) − Φ(u0 ) = ∂Φ 0 (u )∆i + O(∆2i ) ∂ui aufgespannt wird. Für das Volumen gilt also ∂Φ 0 ∂Φ 0 (u ), . . . , ∆n (u ) ∂u1 ∂un n ∂Φ Y ∂Φ 0 ∆k det = (u0 ), . . . , (u ) ∂u1 ∂un k=1 µ(Φ(Qj )) ≈ det ∆1 = µ(Qj ) | det DΦ(u0 )|. Genauer kann man zeigen µ(Φ(Qj )) = | det DΦ(u0 )|, µ(Qj )→0 µ(Qj ) lim und damit erhält man Z f (x) dx = lim X f (xj ) µ(Φ(Qj )) lim X f (Φ(uj )) | det DΦ(uj )| µ(Qj ) |Z|→0 D = = |Z|→0 Z j f (Φ(u)) | det DΦ(u)| du. U Der folgende Satz 24.26. enthält die tatsächlich benötigten Eigenschaften von Φ. Einen Beweis findet man in Heuser [18, p. 478 ff]. Satz 24.26. (Transformationssatz für Integrale) Es seien U, D ⊂ IRn zwei Mengen und Φ : U → D = Φ(U ) eine reguläre Koordinatentransformation, d.h. ◦ (i) Φ ist in U stetig differenzierbar und alle partiellen Ableitungen von Φ sind ◦ beschränkt in U , 118 KAPITEL 24. INTEGRALRECHNUNG BEI MEHREREN VARIABLEN (ii) für alle wesentlichen Punkte u1 , u2 ∈ U (d.h. det DΦ(ui ) 6= 0, i = 1, 2) mit u1 6= u2 gilt Φ(u1 ) 6= Φ(u2 ), (iii) Φ ist surjektiv, d.h. für alle x ∈ D existiert u ∈ U mit Φ(u) = x. Ist D kompakt und meßbar und f : D → IR auf D stetig, so gilt Z f (x) dx = D Z f (Φ(u)) | det DΦ(u)| du. U Wegen des Faktors | det DΦ(u)| muß Φ nur auf der Menge der wesentlichen Punkte injektiv sein. Es ist nötig, mit der schwachen, aber komplizierten Voraussetzung (ii) zu arbeiten (man kann also (ii) und (iii) nicht zu der stärkeren Voraussetzung “Φ : U → D ist bijektiv” zusammenfassen), da wichtige Transformationen keine besseren Eigenschaften haben. Dies wird an den folgenden Beispielen deutlich. Beispiel 24.27. (Polarkoordinaten) r cos ϕ U ⊂ {(r, ϕ) : 0 ≤ r, 0 ≤ ϕ < 2π}, Φ(r, ϕ) = . r sin ϕ Dann gilt cos ϕ | det DΦ(r, ϕ)| = det sin ϕ −r sin ϕ = r. r cos ϕ Hier gilt im allgemeinen nicht Φ(r1 , ϕ1 ) 6= Φ(r2 , ϕ2 ) für (r1 , ϕ1 ) 6= (r2 , ϕ2 ), denn Φ(0, ϕ1 ) = 0 = Φ(0, ϕ2 ) für ϕ1 6= ϕ2 , es ist aber Voraussetzung (ii) erfüllt; die Menge der wesentlichen Punkte ist {(r, ϕ) : r > 0}. Die Transformationsformel lautet hier ZZ ZZ f (x, y) d(x, y) = D f (r cos ϕ, r sin ϕ) r d(r, ϕ). U 2 Diese Formel hatten wir uns schon auf direktem Wege klargemacht. Beispiel 24.28. (Kugelkoordinaten) U ⊂ {(r, ϕ, θ) : 0 ≤ r, 0 ≤ ϕ < 2π, − π π ≤ θ ≤ }, 2 2 Φ(r, ϕ, θ) = (r cos ϕ cos θ, r sin ϕ cos θ, r sin θ)T . Dann gilt cos ϕ cos θ | det DΦ(r, ϕ, θ)| = det sin ϕ cos θ sin θ −r sin ϕ cos θ −r cos ϕ sin θ r cos ϕ cos θ −r sin ϕ sin θ 0 r cos θ 2 = r cos θ. 2 24.4. DER TRANSFORMATIONSSATZ FÜR INTEGRALE 119 Beispiel 24.29. Als Anwendung berechnen wir erneut den Schwerpunkt des hoπ mogenen Kugeloktanten vom Radius R. Für die Masse gilt m = R3 ρ. Daher erhält 6 man für die erste Komponente des Schwerpunktes m · xs = ρ Z x d(x, y, z) D = ρ π/2 Z π/2ZR Z 0 = 0 1 4 R ρ 4 r cos ϕ cos θ · r2 cos θ dr dϕ dθ 0 π/2 Z cos2 θ dθ = 0 π 4 R ρ. 16 3 Daher erhält man wieder xs = R, und aus Symmetriegründen ebenfalls ys = zs = 8 3 R. 2 8 Beispiel 24.30. Für das Trägheitsmoment einer homogenen Kugel K mit der Dichte ρ und dem Radius R bzgl. der z-Achse erhält man mit Kugelkoordinaten J = ρ Z (x2 + y 2 ) d(x, y, z) K = ρ π/2 ZR Z2π Z (r2 cos2 ϕ cos2 θ + r2 sin2 ϕ cos2 θ)r2 cos θ dθ dϕ dr 0 0 −π/2 = ρ π/2 ZR Z2π Z r4 cos3 θ dθ dϕ dr 0 0 −π/2 π/2 1 5 Z 8 = ρ · 2π · R cos3 θ dθ = πR5 . 5 15 −π/2 2 Beispiel 24.31. (Zylinderkoordinaten) U ⊂ {(r, ϕ, z) : 0 ≤ r, 0 ≤ ϕ < 2π}, Φ(r, ϕ, z) = (r cos ϕ, r sin ϕ, z)T . Dann gilt (wie für die Polarkoordinaten) | det DΦ(r, ϕ, z)| = r. 2 Beispiel 24.32. Als Anwendung leiten wir noch einmal die Formel für das Volumen eines Rotationskörpers her (vgl. Abschnitt ??). 120 KAPITEL 24. INTEGRALRECHNUNG BEI MEHREREN VARIABLEN Es sei D := {(x, y, z)T : a ≤ x ≤ b, y 2 + z 2 ≤ f (x)2 } für eine stetige, nichtnegative Funktion f : [a, b] → IR. Dann gilt für das Volumen mit der Variablentransformation y = r cos ϕ, z = r sin ϕ, x = x µ(D) = Z Z Z d(x, y, z) = a 0 D = Zb Z2πh a 0 Zb Z2π fZ(x) r dr dϕ dx 0 b Z 1 2 if (x) dϕ dx = π f (x)2 dx. r 2 0 a 2 Beispiel 24.33. Als weitere Anwendung berechnen wir erneut das Trägheitsmoment eines homogenen Zylinders mit der Dichte ρ, dem Radius R und der Höhe h. Mit Zylinderkoordinaten erhält man das Trägheitsmoment bzgl. der z-Achse Jz = ρ h/2 ZR Z2π Z 2 r r dz dϕ dr = 2πhρ ZR 0 0 0 −h/2 1 r3 dr = πhR4 ρ. 2 Auch die Berechnung des Trägheitsmoments bzgl. der x-Achse kann man durch Einführung von Polarkoordinaten in der (x, y)-Ebene vereinfachen. Man erhält Jx = ρ √ ZR R Z2 −x2 h/2 Z (y 2 + z 2 ) dz dy dx √ −R − R2 −x2 −h/2 √ R ZR Z2 −x2 2 = ρ hy + √ −R − R2 −x2 = ρ ZR Z2π 0 0 = ρ ZR 0 hr2 sin2 ϕ + 1 3 h dy dx 12 1 3 h r dϕ dr 12 1 πhR2 2 hr3 π + h3 dr = ρ 3R + h2 . 6 12 2 Die Berechnung des Trägheitsmoments eines Körpers ist häufig einfach, wenn die Bezugsachse durch den Schwerpunkt des Körpers geht. Ist dies nicht der Fall, so kann man mit dem folgenden Satz 24.34. die Berechnung vereinfachen. 24.4. DER TRANSFORMATIONSSATZ FÜR INTEGRALE 121 Satz 24.34. (Steinerscher Satz) Das Trägheitsmoment eines homogenen Körpers mit der Dichte ρ bzgl.einer Achse A ist gleich der Summe des Trägheitsmoments bzgl.einer durch den Schwerpunkt gehenden zu A parallelen Achse und des Trägheitsmoments der im Schwerpunkt vereinigten Gesamtmasse bzgl. der Achse A. Beweis: Es sei o.B.d.A. die x-Achse die Drehachse A und es sei (xs , ys , zs )T der Schwerpunkt des Körpers. Dann gilt mit der Substitution xs + u Φ(u, v, w) = ys + v zs + w wegen | det DΦ(u, v, w)| = 1 mit U := Φ−1 (D) Jx = ρ Z Z Z (y 2 + z 2 ) d(x, y, z) = ρ D = ρ(ys2 + Z Z Z U zs2 ) Z Z Z d(u, v, w) + 2ρys Z Z Z U + 2ρzs Z Z Z Es ist v d(u, v, w) U w d(u, v, w) + ρ U Z Z Z (ys + v)2 + (zs + w)2 d(u, v, w) Z Z Z (v 2 + w2 ) d(u, v, w). U v d(u, v, w) die zweite Komponente des Schwerpunktes im (u, v, w)- U System, also gleich Null, und genauso verschwindet das dritte Integral. ρ Z Z Z d(u, v, w) = m ist die Gesamtmasse des Körpers, also ist das erste Integral U das Trägheitsmoment der im Schwerpunkt vereinigten Gesamtmasse bzgl. der xAchse, und das letzte Integral ist das Trägheitsmoment des Körpers bzgl. der uAchse. Bemerkung 24.35. Aus dem Steinerschen Satz (Satz 24.34.) folgt unmittelbar, daß für eine Schar paralleler Achsen das Trägheitsmoment minimal wird bzgl. der Achse, die durch den Schwerpunkt geht. 2 122 KAPITEL 24. INTEGRALRECHNUNG BEI MEHREREN VARIABLEN Beispiel 24.36. Eine homogene Kugel mit der Dichte ρ und dem Radius R rotiere an einer masselosen Stange der Länge ` um eine Achse. Wir bestimmen ihr Trägheitsmoment. Abbildung 24.9 Nach Beispiel 24.30. ist das Trägheitsmoment der Kugel bei Rotation um eine Achse durch ihren Mittelpunkt JK = 8 πρR5 . 15 4 πρR3 . Daher ist das Trägheitsmoment des Schwer3 punktes der Kugel mit dieser Masse Die Masse der Kugel ist m = 4 Js = πρR3 (R + `)2 , 3 und aus dem Steinerschen Satz erhält man das gesuchte Trägheitsmoment 8 4 J = πρR3 (R + `)2 + πρR5 . 3 15 2 24.5 Parameterabhängige Integrale Wir betrachten in diesem Abschnitt Integrale, die von einem Parameter abhängen. Es sei f : [a, b] × I → IR eine Funktion, die für jedes feste t ∈ I (I ein Intervall) bzgl. x integrierbar über [a, b] ist. Wir betrachten dann die Funktion F : I → IR, F (t) := Zb f (x, t) dx. a Satz 24.37. Ist f : [a, b] × I → IR stetig, so ist auch F : I → IR stetig. Beweis: Es sei t0 ∈ I beliebig und α > 0 so klein, daß Q := [a, b] × ([t0 − α, t0 + α] ∩ I) ein kompaktes Rechteck ist (Ist I abgeschlossen, so kann man α > 0 beliebig 24.5. PARAMETERABHÄNGIGE INTEGRALE 123 wählen, sonst rückt man durch diese Konstruktion von nicht zu [a, b] × I gehörenden Teilen des Randes von [a, b] × I ab). Dann ist f gleichmäßig stetig auf Q, und daher existiert zu jedem ε > 0 ein δ > 0 (δ ≤ α), so daß |f (x, t) − f (x, t0 )| < ε für alle x ∈ [a, b] und alle t ∈ I mit |t − t0 | < δ gilt. Für diese t ist |F (t) − F (t0 )| = Zb f (x, t) − f (x, t0 ) dx a ≤ Zb |f (x, t) − f (x, t0 )| dx < ε(b − a). a Die ist die Stetigkeit von F in t0 . Satz 24.38. Ist f : [a, b] × I → IR stetig und stetig partiell differenzierbar bzgl. t, so ist F in I differenzierbar und es gilt 0 F (t) = Zb a ∂ f (x, t) dx. ∂t Beweis: Aus dem Mittelwertsatz der Differentialrechnung (Satz ??) folgt für jedes feste x ∈ [a, b] und t 6= t0 f (x, t) − f (x, t0 ) ∂ = f (x, τ (x)) t − t0 ∂t mit einem τ (x) zwischen t und t0 . Es sei Q wie im Beweis von Satz 24.37. Dann gibt es wegen der gleichmäßigen ∂ Stetigkeit von f in Q zu ε > 0 ein δ ∈ (0, α) mit ∂t ∂ ∂ f (x, τ (x)) − f (x, t0 ) < ε ∂t ∂t für alle t mit |t − t0 | < δ (Beachte, daß dann auch |t0 − τ (x)| < δ gilt). Hiermit folgt f (x, t) − f (x, t ) ∂ ∂ ∂ 0 − f (x, t0 ) = f (x, τ (x)) − f (x, t0 ) < ε t − t0 ∂t ∂t ∂t für t ∈ (t0 − δ, t0 + δ), und durch Integration über x erhält man Zb F (t) − F (t ) ∂ 0 − f (x, t0 ) dx < ε(b − a) t − t0 a ∂t für alle t ∈ (t0 − δ, t0 + δ), also die Behauptung von Satz 24.38. 124 KAPITEL 24. INTEGRALRECHNUNG BEI MEHREREN VARIABLEN Bemerkung 24.39. Satz 24.37. und Satz 24.38. gelten offensichtlich (mit sehr ähnlichen Beweisen; beachten Sie daß f reelwertig ist, und daher der Mittelwertsatz in der benutzten Form gilt) auch für Integrale über mehrdimensionale Bereiche und 2 für Parameter t ∈ IRm . Beispiel 24.40. Wir approximieren die Funktion F (t) := Zπ 0 sin(xt) dx x im Intervall [−0.5, 0.5] durch ein Polynom, so daß der absolute Fehler kleiner als 2 · 10−2 ist. Nach Satz 24.38. ist F (beliebig oft) differenzierbar, und es gilt F (t) = Rπ 0 sin(xt) x ⇒ F (0) = 0, dx Rπ F 0 (t) = cos(xt) dx 0 ⇒ F 0 (0) = π, Rπ F 00 (t) = − x sin(xt) dx ⇒ F 00 (0) = 0, 0 Rπ 000 3 F (t) = − x2 cos(xt) dx ⇒ F 000 (0) = − π3 , F (4) Rπ 0 (t) = x3 sin(xt) dx 0 Rπ F (5) (t) = x4 cos(xt) dx 0 ⇒ F (4) (0) = 0, ⇒ |F (5) (t)| ≤ 51 π 5 . Daher folgt für t ∈ [−0.5, 0.5] aus dem Taylorschen Satz F (t) − π3 πt − t3 18 ! π5 ≤ · t5 ≤ 1.6 · 10−2 . 5 · 5! Man erhält dieses Ergebnis auch (und etwas schneller), indem man die Pozenzreihe des Integranden gliedweise integriert und den Fehler der Potenzreihe von F (t) mit dem Leibnitzkriterium abschätzt. 2 Beispiel 24.41. Wir betrachten wie in Beispiel 24.36. eine homogene Kugel mit der Dichte ρ und dem Radius R, die an einer masselosen Stange der Länge ` rotiert. Wir fragen, wie sich das Trägheitsmoment (in erster Näherung) ändert, wenn die Länge der Stange geändert wird. Mit den verschobenen Kugelkoordinaten x = R + ` + r cos ϕ cos θ, y = r sin ϕ cos θ, z = r sin θ 24.5. PARAMETERABHÄNGIGE INTEGRALE 125 ist das Trägheitsmoment der Kugel J(`) = ρ π/2 ZR Z2π Z (R + ` + r cos ϕ cos θ)2 + (r sin ϕ cos θ)2 r2 cos θ dθ dϕ dr. 0 0 −π/2 Daher folgt dJ d` = ρ π/2 ZR Z2π Z 2(R + ` + r cos ϕ cos θ)r2 cos θ dθ dϕ dr 0 0 −π/2 = 2πρ π/2 ZR Z 0 −π/2 8 2(R + `)r2 cos θ dθ dr = πρ(R + `)R3 . 3 Das Ergebnis ist auch klar nach dem Steinerschen Satz, denn das Trägheitsmoment der Kugel bei Rotation um eine Achse durch den Schwerpunkt ist unabhängig von `. Das Trägheitsmoment des Schwerpunktes mit dem Abstand R + ` von der Rota8 8 tionsachse und der Masse πρR3 ist Js = πρ(R + `)2 R3 , und daher folgt 3 3 dJ dJs 8 = = πρ(R + `)R3 . d` d` 3 2 Wir nehmen nun allgemeiner an, daß auch die Integrationsgrenzen von dem Parameter abhängen. Satz 24.42. Es sei F : IR ⊃ I → IR und F (t) := ψ(t) Z f (x, t) dx, φ(t) wobei φ, ψ : I → IR stetig differenzierbar und f und ∂ f stetig in einer Menge ∂t B ⊃ {(x, t)T : t ∈ I, min(φ(t), ψ(t)) ≤ x ≤ max(φ(t), ψ(t))} sind. Dann ist F stetig differenzierbar in I und 0 F (t) = ψ(t) Z φ(t) ∂ f (x, t) dx + f (ψ(t), t) ψ 0 (t) − f (φ(t), t) φ0 (t). ∂t 126 KAPITEL 24. INTEGRALRECHNUNG BEI MEHREREN VARIABLEN Beweis: Wir betrachten die Funktion G(t, y, z) := Zz f (x, t) dx. y Dann ist G wegen Satz 24.38. stetig partiell differenzierbar nach t und wegen des Hauptsatzes der Infinitesimalrechnung stetig partiell differenzierbar nach y und z. Nach der Kettenregel folgt daher d G(t, φ(t), ψ(t)) dt ∂G ∂G 0 ∂G 0 = + φ (t) + ψ (t) ∂t ∂y ∂z F 0 (t) = ψ(t) Z = φ(t) ∂ f (x, t) dx − f (φ(t), t) φ0 (t) + f (ψ(t), t) ψ 0 (t). ∂t Beispiel 24.43. Es sei G(x, t) := min(x, t), 0 ≤ x, t ≤ 1 und hiermit u(t) := Z1 G(x, t) f (x) dx = 0 Zt x f (x) dx + 0 Z1 t f (x) dx. t Dann gilt 0 u (t) = t · f (t) + Z1 t f (x) dx − t · f (t) = Z1 f (x) dx, t 00 u (t) = −f (t), d.h. u löst die Differentialgleichung −u00 (t) = f (t), 0 < t < 1, und erfüllt die Randbedingungen u(0) = 0, u0 (1) = 0. Wir kommen auf dieses Beispiel in Abschnitt 31.1 zurück, wo wir Lösungen von Randwertaufgaben mit Hilfe einer Greenschen Funk2 tion G(x, t) darstellen. Beispiel 24.44. Wir betrachten erneut (vgl. Beispiel 24.36.) eine homogene Kugel mit der Dichte ρ und dem Radius R, die an einer masselosen Stange der Länge ` rotiert, und fragen nun, wie sich das Trägheitsmoment ändert, wenn der Radius R geändert wird. Aus J(R) = ρ π/2 ZR Z2π Z 0 0 −π/2 (R + ` + r cos ϕ cos θ)2 + (r sin ϕ cos θ)2 r2 cos θ dθ dϕ dr 24.6. UNEIGENTLICHE INTEGRALE 127 folgt π/2 ZR Z2π Z dJ = ρ 2(R + ` + r cos ϕ cos θ)r2 cos θ dθ dϕ dr dR 0 0 −π/2 π/2 Z2π Z +ρ (R + ` + R cos ϕ cos θ)2 + (R sin ϕ cos θ)2 R2 cos θ dθϕ 0 −π/2 Das erste dieser beiden Integrale haben wir schon in Beispiel 24.41. berechnet und 8 πρ(R + `)R3 3 erhalten. Für das zweite Integral gilt ρ π/2 Z2π Z (R + ` + R cos ϕ cos θ)2 + (R sin ϕ cos θ)2 R2 cos θ dθ dϕ 0 −π/2 = ρ π/2 Z2π Z (R + `)2 + 2R(R + `) cos ϕ + R2 cos2 θ R2 cos θ dθ dϕ 0 −π/2 = 2πρ π/2 Z (R + `)2 R2 cos θ + R4 cos3 θ dθ −π/2 8 = 4πρR2 (R + `)2 + πρR4 . 3 Daher erhält man insgesamt (vgl. Beispiel 24.30.) 8 8 dJ = πρ(R + `)R3 + 4πρ(R + `)2 R2 + πρR4 dR 3 3 d 4 8 = πρ(R + `)2 R3 + πρR5 . dR 3 15 2 24.6 Uneigentliche Integrale Wir verallgemeinern nun die Vertauschungssätze des letzten Abschnitts auf unbeschränkte Integrationsbereiche. In dieser Allgemeinheit werden wir die Ergebnisse in Kapitel ?? bei der Behandlung der Laplace Transformierten benötigen. Als zusätzliche Voraussetzung benötigen wir bei uneigentlichen Integralen die gleichmäßige Konvergenz der Integrale. 128 KAPITEL 24. INTEGRALRECHNUNG BEI MEHREREN VARIABLEN Definition 24.45. Das Integral F (y) := Z∞ f (x, y) dx a heißt gleichmäßig konvergent auf der Menge D ⊂ IR, wenn es für alle ε > 0 ein R(ε) > a gibt, so daß Z∞ f (x, y) dx < ε für alle r ≥ R(ε) und alle y ∈ D r gilt. Wie bei Reihen von Funktionen erhält man die gleichmäßige Konvergenz von uneigenlichen Integralen aus einem Majorantenkriterium. Satz 24.46. ((Majorantenkriterium)) Das Integral Z∞ f (x, y) dx a existiere für alle y ∈ D, und es existiere ein g : (a, ∞) → IR mit |f (x, y)| ≤ g(x) für alle x > a. Ist g uneigentlich integrierbar über (a, ∞), so ist Z∞ f (x, y) dx a gleichmäßig konvergent für y ∈ D. Beweis: Da g uneigentlich integrierbar über (a, ∞) ist, gibt es zu ε > 0 ein R > a mit Zd g(x) dx < ε für alle c, y mit R < c < d. c Damit folgt Zd Zd Zd f (x, y) dx ≤ |f (x, y)| dx ≤ g(x) dx c c c für alle c, d mit R < c < d und alle y ∈ D. Läßt man hierin d gegen ∞ gehen, so erhält man die gleichmäßige Konvergenz der Integrale Z∞ a für y ∈ D. f (x, y) dx 24.6. UNEIGENTLICHE INTEGRALE 129 Satz 24.47. Ist f : (a, ∞ × D → IR stetig und konvergiert F (y) = Z∞ f (x, y) dx a gleichmäßig in D, so ist F : D → IR stetig, d.h. für y0 ∈ D gilt lim Z∞ y→y0 f (x, y) dx = Z∞ lim f (x, y) dx = y→y0 f (x, y0 ) dx. a a a Z∞ Beweis: Wegen der gleichmäßigen Konvergenz von F (y) auf D konvergiert die Funktionenfolge Fn (y) := a+n Z f (x, y) dx a gleichmäßig auf D. Da jedes FN stetig auf D ist, ist nach Satz ?? auch die Grenzfunktion lim Fn (y) = Z∞ n→∞ f (x, y) dx = f (y) a 2 stetig auf D. Satz 24.48. Sind die Funktionen f : (a, ∞) × (c, d) → IR und ∂ f stetig in ∂y (a, ∞) × (c, d), existiert für y0 ∈ (c, d) das uneigentliche Integral Z∞ f (x, y0 ) dy a und konvergiert Z∞ a ∂ f (x, y) dx ∂y gleichmäßig in (c, d), so ist F (y) := Z∞ f (x, y) dx a differenzierbar in y0 , und es gilt ∞ Z∞ d Z ∂ F (y0 ) = f (x, y) dx = f (x, y) dx. y=y0 y=y0 dy a ∂y a 0 Beweis: Wir betrachten wie im Beweis von Satz 24.47. die Funktionenfolge Fn (y) := a+n Z f (x, y) dx. a 130 KAPITEL 24. INTEGRALRECHNUNG BEI MEHREREN VARIABLEN Dann ist jedes Fn nach Satz 24.38. differenzierbar in (c, d), und es gilt Fn0 (y) a+n Z = a ∂ f (x, y) dx. ∂y 2 Die Behauptung folgt daher aus Satz ?? Satz 24.49. Es sei f : [a, ∞) × [b, ∞) → IR stetig, und es seien die Integrale Z∞ |f (x, y) dx Z∞ und a |f (x, y)| dy b gleichmäßig konvergent in jedem kompakten Teilintervall von [b, ∞) bzw. [a, ∞). Konvergiert eines der iterierten Integrale Z∞ Z∞ f (x, y) dx dy Z∞ Z∞ , a b a f (x, y) dy dx, b so konvergiert auch das andere, und es gilt Z∞ Z∞ f (x, y) dx dy = a b Z∞ Z∞ a f (x, y) dy dx. b Beweis: Wir betrachten den Fall, daß Z∞ Z∞ |f (x, y)| dx dy (24.1) b a konvergiert. Den anderen Fall behandelt man genauso, wobei lediglich die Rollen von x und y getauscht werden. Wir zeigen, daß es zu ε > 0 ein A ≥ a gibt, so daß Zα Z∞ Z∞ Z∞ f (x, y) dy dx < ε f (x, y) dx dy − b a a b für alle α ≥ A gilt. Da die Vertauschbarkeit für kompakte Intervalle [a, α] × [b, β] bereits gesichert ist, erhalten wir für alle β > b Zα Z∞ Z∞ Z∞ f (x, y) dx dy − f (x, y) dy dx b a = Zβ Zα b a f dx dy + a b Zβ Z∞ b α f dx dy + Z∞ Z∞ β a f dx dy − Zα Zβ a b f dy dx − Zα Z∞ a β f dy dx 24.6. UNEIGENTLICHE INTEGRALE = Zα Z∞ Z∞ Z∞ Zβ Z∞ f dy dx f dx dy − f dx dy + ≤ Zβ Z∞ b α Z∞ Z∞ a β β a b α ≤ 131 |f | dx dy + |f | dx dy + b α Z∞ Z∞ β a Z∞ Z∞ |f | dx dy + |f | dx dy + β a Zα Z∞ a β Zα Z∞ |f | dy dx |f | dy dx. a β Diese drei Integrale schätzen wir nun einzeln ab. Wegen der Konvergenz des Integrals in (24.1) existiert ein B ≥ b mit Z∞ Z∞ B a ε |f (x, y)| dx dy < , 6 und dann gilt erst recht Z∞ Z∞ |f (x, y)| dx dy < B α Da R∞ a ε 6 für alle α ∈ [a, ∞). (24.2) |f (x, y)| dx auf dem kompakten Intervall [b, B] gleichmäßig konvergiert, gibt es ein A ≥ a mit Z∞ |f (x, y)| dx < α ε 6(B − b) für alle y ∈ [b, B] und alle α ≥ A. Daher folgt ZB Z∞ b α ε |f (x, y)| dx dy < , 6 und zusammen mit (24.2) Z∞ Z∞ |f (x, y)| dx dy < b α ε 3 für alle α ≥ A. (24.3) Da das Integral in (24.1) konvergiert, gibt es ein B ≥ b mit Z∞ Z∞ |f (x, y)| dx dy < β a ε 3 für alle β ≥ B. Schließlich können wir wegen der Konvergenz von R∞ b (24.4) |f (x, y)| dy zu jedem festen α ≥ A ein β ≥ B wählen, so daß Zα Z∞ a β |f (x, y) dy dx < ε 3 (24.5) 132 KAPITEL 24. INTEGRALRECHNUNG BEI MEHREREN VARIABLEN gilt. Zusammen erhalten wir daher aus (24.3), (24.4) und (24.5) Zα Z∞ Z∞ Z∞ f (x, y) dx dy − f (x, y) dy dx < ε b a für alle α ≥ A. a b 2 Abschließend wollen wir nun ein uneigentliches Integral über einen zweidimensioZ∞ nalen Bereich bestimmen, mit dessen Hilfe wir das wichtige Integral 2 e−x dx er- −∞ halten, das nicht mit elementaren Mitteln der reellen Analysis berechnet werden kann. Beispiel 24.50. Z 2 2 exp(−(x + y )) d(x, y), D := { x y : x, y ≥ 0}. D Da f (x, y) := exp(−(x2 +y 2 )) stetig ist, existiert das Integral von f über jede kompakte meßbare Menge. Es seien Q := {(x, y)T : 0 ≤ x, y ≤ R}, K1 := {(x, y)T : x2 + y 2 ≤ R2 }, K2 := {(x, y)T : x2 + y 2 ≤ 2R2 }. Abbildung 24.10 Dann gilt K1 ⊂ Q ⊂ K2 , und wegen der Positivität von f ist Z f (x, y) d(x, y) ≤ K1 Z f (x, y) d(x, y) ≤ Q Z f (x, y) d(x, y). K2 Die Transformation in Polarkoordinaten liefert Z f (x, y) d(x, y) = π/2ZR Z 0 K1 exp(−r2 )r dr dϕ = 0 iR πh 1 − exp(−r2 ) 0 2 2 π = (1 − exp(−R2 )), 4 und genauso Z K2 f (x, y) d(x, y) = π (1 − exp(−2R2 )). 4 24.6. UNEIGENTLICHE INTEGRALE 133 Daher erhält man für R → ∞ aus der obigen Einschließung Z 2 2 exp(−(x + y )) d(x, y) = lim Z R→∞ D exp(−(x2 + y 2 )) d(x, y) = Q π . 4 2 Z∞ Hiermit kann man das für die Anwendungen wichtige Integral 2 e−x dx, das soge- −∞ nannte Gaußsche Fehlerintegral, bestimmen: Es ist Z 2 2 exp(−(x + y )) d(x, y) = −x2 −y 2 e e 0 0 Q für R → ∞ also ZR ZR Z∞ 0 0 √ −x2 e dx dy = ZR Z∞ √ π 2 , und daher e−x dx = π. dx = 2 −∞ 2 e−x dx 2 , Kapitel 25 Integralsätze Nach dem Hauptsatz der Infinitesimalrechnung gilt für eine differenzierbare Funktion f : IR → IR Zb f 0 (x) dx = f (b) − f (a). a Man kann also das Integral von f 0 durch die Randwerte von f ausdrücken. In diesem Abschnitt wollen wir diesen Sachverhalt auf Funktionen von mehreren Veränderlichen übertragen. 25.1 Kurvenintegrale von Vektorfeldern Es sei K : IR3 → IR3 ein Kraftfeld und C eine C 1 -Kurve in IR3 mit der Parameterdarstellung x : [a, b] → IR3 . Ein Massenpunkt werde längs der Kurve C von x(a) nach x(b) bewegt. Wir fragen, welche Arbeit dabei geleistet werden muß. Zerlegt man das Parameterintervall a = t0 < t1 < . . . < tn = b, so gilt A ≈ = n X i=1 n X hK(x(ti )), x(ti ) − x(ti−1 )i hK(x(ti )), ẋ(τi )i (ti − ti−1 ), τi ∈ (ti−1 , ti ), i=1 und bei Verfeinerung der Zerlegung konvergiert die Riemannsche Summe der rechten Seite gegen Zb a Allgemeiner definieren wir hK(x(t)), ẋ(t)i dt. 25.1. KURVENINTEGRALE VON VEKTORFELDERN 135 Definition 25.1. Ist f : IRn ⊃ D → IRn ein stetiges Vektorfeld und C eine (stückweise) C 1 -Kurve in D mit der Parameterdarstellung x : [a, b] → D, so heißt Z f (x) dx := Zb hf (x(t)), ẋ(t)i dt (25.1) a C das Kurvenintegral (oder Wegintegral) von f über C. Bemerkung 25.2. Im Fall einer glatten Kurve (ẋ(t) 6= 0 für alle t) kann das Kurvenintegral (25.1) als Kurvenintegral einer skalaren Funktion interpretiert werden. ẋ(t) Mit dem Tangenteneinheitsvektor T (x(t)) := gilt kẋ(t)k2 Z f (x) dx = Zb hf (x(t)), T (x(t))i kẋ(t)k2 dt a C = Z hf , T i ds. C Es wird also die Tangentialkomponente von f längs des Weges C aufsummiert. 2 Bemerkung 25.3. Wie im Falle einer skalaren Funktion ist das Kurvenintegral eines Vektorfeldes unabhängig von der Parametrisierung von C. 2 Bemerkung 25.4. In der Literatur findet man häufig die folgende Schreibweise: Z f (x) dx = fi (x) dxi i=1 C C mit Z n Z X fi (x) dxi := Zb fi (x(t)) ẋi (t) dt a C 2 Beispiel 25.5. Es sei f (x) := (x2 ß, , −x1 , x23 )T und C definiert durch x(t) = (cosh t , sinh t , 3t)T , −1 ≤ t ≤ 1. Dann gilt Z C sinh t f (x) dx = (sinh t , − cosh t , 9t2 ) cosh t dt 3 −1 Z1 = Z1 −1 2 2 2 (sinh t − cosh t + 27t ) dt = Z1 (−1 + 27t2 ) dt = 16. −1 2 136 KAPITEL 25. INTEGRALSÄTZE Satz 25.6. Besitzt das Vektorfeld f : IRn ⊃ D → IRn ein Potential F (d.h. ∇F = f ), so gilt für jede C 1 -Kurve C mit der Parameterdarstellung x : [a, b] → D Z f (x) dx = F (x(b)) − F (x(a)). C Insbesondere gilt für jede geschlossene Kurve C (d.h. x(a) = x(b)) Z f (x) dx = 0. C Beweis: Aus der Kettenregel folgt mit fi (x) = Z ∂ F (x) ∂xi Zb X n f (x) dx = a C Zb = a ∂ F (x(t)) ẋi (t) dt i=1 ∂xi d F (x(t)) dt = F (x(b)) − F (x(a)). dt Bemerkung 25.7. Satz 25.6. bleibt offensichtlich für stückweise C 1 -Kurven rich2 tig. Bemerkung 25.8. Ist C eine geschlossene Kurve, so schreibt man häufig (um dies deutlicher zu machen) Z C f (x) dx =: I f (x) dx. C 2 Bemerkung 25.9. Satz 25.6. besagt, daß für jedes Vektorfeld f , das aus einem Potential F hergeleitet werden kann, das Integral wegunabhängig ist, also nur von Anfangs- und Endpunkt der Integration abhängt. 2 Definition 25.10. Ist f ein Kraftfeld, das ein Potential F besitzt, so heißt f ein konservatives Kraftfeld und die Funktion U := −F heißt die potentielle Energie von f . 25.1. KURVENINTEGRALE VON VEKTORFELDERN 137 In konservativen Kraftfeldern ist also die geleistete Arbeit bei der Bewegung eines Teilchens von einem Punkt P1 ∈ D nach einem Punkt P2 ∈ D nur vom Anfangspunkt P1 und Endpunkt P2 abhängig, nicht aber von dem gewählten Weg. In konservativen Kraftfeldern gilt der Energieerhaltungssatz der Mechanik, denn nach dem Newtonschen Grundgesetz ( Kraft = Masse · Beschleunigung ) gilt f (x(t)) = −∇U (x(t)) = mẍ(t), nach skalarer Multiplikation mit der Geschwindigkeit ẋ(t) −h∇U (x(t)), ẋ(t)i = mhẍ(t), ẋ(t)i = md kẋ(t)k22 , 2 dt und durch Integration längs irgendeines x(a) und x(b) verbindenden Weges C erhält man −U (x(b)) + U (x(a)) = Z f (x) dx = C m kẋ(b)k22 − kẋ(a)k22 . 2 m kẋ(t)k22 die kinetische Energie und E(x(t)) := U (x(t))+K(x(t)) 2 die Gesamtenergie. Die letzte Gleichung besagt also Es ist K(x(t)) = E(x(a)) = U (x(a)) + K(x(a)) = U (x(b)) + K(x(b)) = E(x(b)). Dies ist der Energieerhaltungssatz der Mechanik: In einem konservativen Kraftfeld bleibt die Gesamtenergie im Verlaufe einer Bewegung, die durch die Differentialgleichung mẍ(t) = −∇U (x(t)) beschrieben wird, konstant. Er erklärt den Namen konservatives (=bewahrendes) Kraftfeld. Definition 25.11. Ein stetiges Vektorfeld f : IRn ⊃ D → IRn heißt wirbelfrei, wenn für jede geschlossene, stückweise C 1 -Kurve C, die ganz in D verläuft, I f (x) dx = 0 C gilt. Wir haben in Satz 25.6. gesehen, daß f wirbelfrei ist, wenn f ein Potential besitzt. Es gilt sogar Satz 25.12. Sei D ⊂ IRn ein Gebiet (d.h. eine offene und zusammenhängende Menge) und f : D → IRn ein stetiges Vektorfeld. 138 KAPITEL 25. INTEGRALSÄTZE f ist genau dann wirbelfrei, wenn f ein Potential F besitzt. Besitzt f ein Potential F , so kann dieses bestimmt werden durch F (y) = Z f (x) dx + c, (25.2) Cy wobei c ∈ IR eine geeignete Konstante ist, x0 ∈ D ein festgewählter Punkt und Cy eine beliebige stückweise C 1 -Kurve in D, die x0 mit y verbindet. Beweis: Es sei F (y) := Z f (x) dx. Cy Da nach Voraussetzung das Integral wegunabhängig ist, ist F (y) wohldefiniert (d.h. unabhängig von dem speziell gewählten Cy ). Abbildung 25.2 Es sei h ∈ IRn mit khk2 = 1 beliebig, und es sei τh > 0 so klein gewählt, daß die Verbindungsgerade Gh : y + t τh h, 0 ≤ t ≤ 1, von y und y + τh h in D enthalten ist. Dann folgt aus dem Mittelwertsatz der Integralrechnung (für reelle Funktionen) mit einem θ ∈ [0, 1] F (y + τh h) − F (y) = Z f (x) dx Gh = Z1 hf (y + t τh h), τh hidt = τh hf (y + θ τh h), hi. 0 Mit τh → 0 liest man hieraus ab, daß F die Richtungsableitung ∂ F (y) = hf (y), hi ∂h besitzt, insbesondere also f (y) = ∇F (y) gilt. Ist G ein beliebiges Potential von f , so gilt ∇(F − G)(x) ≡ 0, und daher unterscheiden sich F und G nur um eine additive Konstante. 25.1. KURVENINTEGRALE VON VEKTORFELDERN 139 Beispiel 25.13. Wir verwenden die Konstruktion aus dem Beweis von Satz 25.12. und bestimmen das Potential des Vektorfeldes 2xy 3 + 1/x 3x2 y 2 + 1/y f (x, y) = auf dem positiven Quadranten D := { x y ! : x, y > 0}. 1 und den Integrationsweg von x0 zu einem festen Wir wählen x := 1 parallel zu den Koordinatenachsen: 0 1 x−1 +t· 1 0 C: x 0 + (t − 1) · y−1 1 , 0≤t≤1 , 1≤t≤2 x y ∈D Dann gilt (bis auf eine additive Konstante) Z1 F (x, y) = 0 + Z2 ! 1 (x − 1) dt 2(1 + t(x − 1)) + 1 + t(x − 1) ! 1 (y − 1) dt 3x (1 + (t − 1)(y − 1)) + 1 + (t − 1)(y − 1) 2 1 2 = (1 + t(x − 1))2 + ln(1 + t(x − 1)) 1 0 2 3 + x (1 + (t − 1)(y − 1)) + ln(1 + (t − 1)(y − 1)) 2 1 2 2 3 2 = (x + ln x − 1) + (x y + ln y − x ) = x2 y 3 + ln(xy) + 1. Der Integration parallel zu den Koordinatenachsen ist in gewissem Sinne das folgende Vorgehen äquivalent: Wegen f = ∇F gilt insbesondere F (x, y) = Z ∂ F = f1 , d.h. ∂x 2x3 y 3 + 1 dx = x2 y 3 + ln x + g(y) x (y ist bei dieser Integration bzgl. x ein Parameter, die “Integrationskonstante” hängt also von y ab). Durch Differentiation bzgl. y folgt 1 ∂ F (x, y) = 3x2 y 2 + g 0 (y) = f2 (x, y) = 3x2 y 2 + , ∂y y 140 KAPITEL 25. INTEGRALSÄTZE d.h. g 0 (y) = 1 ⇒ g(y) = ln y + C, y und man erhält schließlich wieder F (x, y) = x2 y 3 + ln(xy) + c. 2 25.2 Der Integralsatz von Green Wir betrachten in diesem Abschnitt nur ebene Vektorfelder f : IR2 ⊃ D → IR2 . Wir haben schon in Kapitel 22 gesehen, daß im Falle n = 3 für die Existenz eines Potentials von f die Bedingung rot f (x) = 0 für alle x ∈ D notwendig ist. Ist n = 2 und f : IR2 ⊃ D → IR2 ein C 1 -Vektorfeld in D, so können wir dieses durch D̃ := {(x, y, z)T : (x, y)T ∈ D} und f̃ (x, y, z) := (f1 (x, y) , f2 (x, y) , 0)T zu einem Vektorfeld auf D̃ ⊂ IR3 fortsetzen. Hierfür gilt ∂ ˜ ∂ f3 − f˜2 0 ∂z ∂y ∂ ∂ ˜ 0 rot f̃ (x, y, z) = f˜1 − = . f3 ∂ ∂ ∂z ∂x f 2 (x, y) − f 1 (x, y) ∂ ˜ ∂ ˜ ∂x ∂y f2 − f1 ∂x ∂y Man definiert daher Definition 25.14. Es sei f : IR2 ⊃ D → IR2 ein ebenes differenzierbares Vektorfeld. Dann heißt rot f (x, y) := ∂ ∂ f2 (x, y) − f1 (x, y). ∂x ∂y die Rotation von f . Bemerkung 25.15. Man beachte, daß im zweidimensionalen Fall rot f kein Vektorfeld auf D ⊂ IR2 ist, sondern eine skalare Funktion. 2 25.2. DER INTEGRALSATZ VON GREEN 141 Bemerkung 25.16. Es ist klar, daß rot f (x, y) = 0 für alle (x , y)T ∈ D auch im Falle n = 2 eine notwendige Bedingung für die Existenz eines Potentials ist. 2 Das folgende Beispiel 25.17. zeigt, daß die Bedingung i.a. nicht hinreichend ist. Beispiel 25.17. Sei 1 f (x, y) := 2 x + y2 Dann ist −y , D := IR2 \ {0}. x ∂ x2 + y 2 − 2x2 y 2 − x2 ∂ f2 (x, y) = f1 (x, y), = = 2 2 2 2 2 2 ∂x (x + y ) (x + y ) ∂y d.h. rot f (x, y) = 0 für alle (x, y)T ∈ D, aber für den Einheitskreis C : t 7→ (cos t , sin t)T , t ∈ [0, 2π], gilt Z f (x, y) d(x, y) = Z2π (− sin t)(− sin t) + cos t · cos t dt = 2π 6= 0, 0 C d.h. f besitzt kein Potential. Der Grund hierfür ist, daß der Definitionsbereich D von f “ein Loch hat”. Schränkt man den Definitionsbereich von f auf eine Menge D̃ ⊂ D ein, die das Loch 0 nicht umschließt, so kann man ein Potential für f konstruieren. Z.B. ist für D̃ ⊂ {(x, y)T : y x > 0} die Funktion F (x, y) = arctan ein Potential. 2 x Definition 25.18. Ein Gebiet D ⊂ IR2 heißt einfach zusammenhängend wenn es zu jeder geschlossenen Kurve x : [a, b] → D eine stetige Abbildung h : [a, b] × [0, 1] → D und ein c ∈ D gibt mit h(t, 0) = x(t) und h(t, 1) = c für alle t ∈ [a, b]. Das Gebiet D ist also genau dann einfach zusammenhängend, wenn man jede geschlossene Kurve C in D stetig auf einen Punkt c ∈ D zusammenziehen kann. Beispiel 25.19. Es sei D ⊂ IR2 ein konvexes Gebiet. Dann kann man c ∈ D beliebig wählen. Ist x : [a, b] → D eine beliebige Kurve, so leistet die Homotopie h : [a, b] × [0, 1] → D, h(t, λ) := c + (1 − λ)(x(t) − c), das Gewünschte. Es ist also jede konvexe Menge in IR2 einfach zusammenhängend. Die obigen Überlegungen zeigen, daß es sogar genügt, daß D sternförmig ist, daß es also ein c ∈ D gibt, so daß {c + (1 − λ)(x − c)} ⊂ D gilt. für alle x ∈ D 2 142 KAPITEL 25. INTEGRALSÄTZE Abbildung 25.2 D einfach zusammenhängend/D nicht einfach zusammenhängend Tatsächlich gilt Satz 25.20. Es sei D ⊂ IR2 ein einfach zusammenhängendes Gebiet und f : D → IR2 ein stetig differenzierbares Vektorfeld mit rot f (x, y) = 0 für alle (x, y)T ∈ D. Dann ist f wirbelfrei, d.h. es gilt I f (x, y) d(x, y) = 0 C für jede geschlossene Kurve C ⊂ D. Einen Beweis von Satz 25.20. findet man in Apostol. Wir zeigen nur Satz 25.21. (Integralsatz von Green) Es sei f : IR2 ⊂ D → IR2 ein C 1 ◦ Vektorfeld und B ⊂D ein Standardbereich (d.h. projizierbar bzgl. beider Koordinatenrichtungen), dessen Randkurve stückweise stetig differenzierbar ist. Dann gilt Z rot f (x, y) d(x, y) = B I f (x, y) d(x, y), ∂B wobei der Rand ∂B von B in mathematisch positiver Richtung (entgegen dem Uhrzeigersinn) zu durchlaufen ist. Beweis: 25.2. DER INTEGRALSATZ VON GREEN Abbildung 25.3 143 Skizze zum Beweis von Satz 25.21. Der Rand des Standardbereichs läßt sich parametrisieren durch a + t(b − a), a, 0≤t≤1 b, 1≤t≤2 , x(t) := b − (t − 2)(b − a), 2 ≤ t ≤ 3 3≤t≤4 φ(a + t(b − a)), φ(b) + (t − 1)(ψ(b) − φ(b)), y(t) := ψ(b − (t − 2)(b − a)), 0≤t≤1 1≤t≤2 2≤t≤3 . ψ(a) − (t − 3)(ψ(a) − φ(a)), 3 ≤ t ≤ 4 Dann ist Z B Zb ψ(x) Z ∂ ∂ f1 (x, y) d(x, y) = f1 (x, y) dy dx ∂y ∂y a φ(x) = Zb f1 (x, ψ(x)) − f1 (x, φ(x)) dx a = − Z4 f1 (x(t), y(t)) ẋ(t) dt, 0 denn mit der Variablentransformation x(t) := a + t(b − a) gilt Zb a f1 (x, φ(x)) dx = Z1 0 f1 (x(t), y(t)) ẋ(t) dt, 144 KAPITEL 25. INTEGRALSÄTZE mit x(t) = b − (t − 2)(b − a) gilt − Zb f1 (x, ψ(x)) dx = a Z3 f1 (x(t), y(t)) ẋ(t) dt, 2 und wegen ẋ(t) = 0 für t ∈ (1, 2) ∪ (3, 4) gilt Z2 f1 (x(t), y(t)) ẋ(t) dt = 1 Z4 f1 (x(t), y(t)) ẋ(t) dt = 0. 3 Genauso erhält man, wenn man ∂B mit der Projektion auf die y-Achse darstellt 4 Z B Z ∂ f2 (x, y) d(x, y) = f2 (x(t), y(t)) ẏ(t) dt, ∂x 0 zusammen also Z rot f (x, y) d(x, y) = B = Z ∂ B Z4 ∂x f2 (x, y) − ∂ f1 (x, y) dx dy ∂y f1 (x(t), y(t)) ẋ(t) + f2 (x(t), y(t)) ẏ(t) dt 0 = Z f (x, y) d(x, y). ∂B Tatsächlich wurde gezeigt: Korollar 25.22. Ist g : IR2 ⊃ D → IR eine stetig differenzierbare, skalare Funk◦ tion, so gilt für jeden Standardbereich B ⊂D mit stückweise stetig differenzierbarem Rand ∂B β Z B Z B Z ∂ g(x, y) d(x, y) = − g(x(t), y(t)) ẋ(t) dt, ∂y α Zβ ∂ g(x, y) d(x, y) = g(x(t), y(t)) ẏ(t) dt, ∂x α wobei t 7→ (x(t), y(t)), t ∈ [α, β], eine Parametrisierung des Randes ∂B von B ist. Bemerkung 25.23. Der Satz von Green (Satz 25.21.) ist das erste Ergebnis des Typs “Das Integral einer Ableitung von f läßt sich durch die Randwerte von f darstellen”. 2 25.2. DER INTEGRALSATZ VON GREEN Abbildung 25.4 145 Skizze zum Greenschen Bereich Bemerkung 25.24. Die Voraussetzungen über den Bereich B kann man abschwächen. Eine kompakte Menge B ⊂ IR2 heißt Greenscher Bereich, wenn B als disjunkte Vereinigung von endlich vielen Standardbereichen B1 , . . . , Bn geschrieben werden kann. Auch für Greensche Bereiche gilt Satz 25.21., denn aus Z rot f (x, y) d(x, y) = Bi Z f (x, y) d(x, y) ∂Bi folgt Z B rot f (x, y) d(x, y) = n Z X i=1∂B f (x, y) d(x, y) = i Z f (x, y) d(x, y), ∂B da jedes innere Randstück (d.h. Randstück eines Bi aber nicht von B) genau zweimal durchlaufen wird und zwar in entgegengesetzte Richtungen. Die beiden Wegintegrale über f über dieses Randstück heben sich also gerade gegeneinander auf. 2 2 Bemerkung 25.25. Ist D ⊂ IR2 einfach zusammenhängend und I f : D → IR ein C 1 -Vektorfeld mit rot f (x, y) = 0 für alle (x, y)T ∈ D, so gilt f (x, y) d(x, y) = 0 C für jede geschlossene, stückweise C 1 -Kurve C, die einen Greenschen Bereich berandet. Der Integralsatz von Green enthält also einen Spezialfall von Satz 25.20.. 2 146 KAPITEL 25. INTEGRALSÄTZE Bemerkung 25.26. Satz 25.21. wurde erstmals 1828 von G. Green bewiesen. Er wurde unabhängig davon vom russischen Mathematiker M. Ostrogradski gezeigt und wird in der sowjetischen Literatur Satz von Ostrogradski genannt. Weitere Namen in der Literatur sind Gaußscher Integralsatz (in der Ebene) oder Stokesscher 2 Integralsatz (in der Ebene). Beispiel 25.27. Es sei B := {(x, y)T : 0 ≤ x ≤ 2, 2 ≤ y ≤ 5} und f (x, y) := (xy , x2 − y 2 )T . Dann gilt Z f (x, y) d(x, y) = Z rot f (x, y) d(x, y) = (2x − x) dy dx = 3 0 2 B ∂B Z2 Z5 Z2 x dx = 6. 0 Der Satz von Green kann also hilfreich bei der Berechnung von Kurvenintegralen 2 sein. Beispiel 25.28. Der Satz von Green auchnützlich sein bei der Berechnung kann 0 −y von Flächen, denn wegen 1 = rot = rot gilt für die Fläche F des Bereichs x 0 D Z Z Z 1Z F = d(x, y) = x dy = (−y) dx = (−y dx + x dy). 2 D ∂D ∂D ∂D 2 Für die Fläche F , die durch die Ellipse E : wegen E : t 7→ (a cos t, b sin t)T , 0 ≤ t ≤ 2π, F = Z x dy = Z2π bzw. F =− Z E x y + = 1 eingeschlossen wird, gilt a2 b2 a cos t(b cos t) dt = ab 0 E y dx = − 2 Z2π cos2 t dt = abπ 0 Z2π b sin t(−a sin t) dt = abπ. 0 2 Der Integralsatz von Green kann als ebenes Analogon der noch zu behandelnden Integralsätze von Stokes und von Gauß aufgefaßt werden. Um dies einzusehen, geben wir ihm in den folgenden beiden Korollaren eine etwas andere Fassung. 25.2. DER INTEGRALSATZ VON GREEN 147 Korollar 25.29. (Integralsatz von Stokes; n=2) Es seien die Voraussetzungen von Satz 25.21. erfüllt, und es sei T der Tangenteneinheitsvektor der Randkurve ∂B. Dann gilt I hf , T i ds = ZZ rot f (x, y) d(x, y). (25.3) B ∂B Beweis: Wir haben das Kurvenintegral im Greenschen Satz nur entsprechend Bemerkung 25.2. in das Kurvenintegral über die skalare Funktion hf , T i umgeschrieben. Korollar 25.30. (Integralsatz von Gauß; n=2) Es seien die Voraussetzungen T2 von Satz 25.21. erfüllt, und es sei n := der äußere Normalenvektor der −T1 Randkurve ∂B. Dann gilt ZZ div f (x, y) d(x, y) = B T2 Beweis: Der Vektor n := −T1 gilt nach Korollar 25.22. hf , ni ds = ∂B Z hf , ni ds (25.4) ∂B Z I ist der äußere Normalenvektor von ∂B. Hiermit (f1 n1 + f2 n2 ) ds ∂B = Z (f1 T2 − f2 T1 ) ds ∂B = ZZ ∂ ZBZ = ∂x f1 (x, y) + ∂ f2 (x, y) dx dy ∂y div f (x, y) dx dy. Abbildung 25.5 B Der Greensche Satz in der Gestalt Korollar 25.29. bzw. Korollar 25.30. läßt physikalische Interpretationen zu: Es sei f das Geschwindigkeitsfeld einer strömenden Flüssigkeit in der Ebene. Dann ist Z hf , T i ds das Integral der Tangentialkomponente von f über den Rand ∂B von B. Dieses mißt die Gesamtzirkulation der Flüssigkeit um den Bereich B. 148 KAPITEL 25. INTEGRALSÄTZE Ist B zusammenhängend, so gilt nach (25.3) und dem Mittelwertsatz der Integralrechnung (Satz 24.19.) Z hf , T i ds = ZZ rot f dx dy = rot f (x0 , y0 ) · µ(B), B ∂B wobei (x0 , y0 )T ∈ B gilt und µ(B) die Fläche von B ist. Ist B klein, so ist rot f nahezu konstant, rot f (x, y) ≈ rot f (x0 , y0 ) für alle (x , y)T ∈ B, und die Rotation rot f (x0 , y0 ) in (x0 , y0 )T ∈ D ist die Zirkulation der Flüssigkeit pro Flächeneinheit. Gilt rot f (x, y) = 0 für alle (x , y)T ∈ D, so ist die Bewegung der Flüssigkeit zirkulations-, d.h. wirbelfrei. Z hf , ni ds ist das Integral der Normalkomponenete von f , also der gesamte Fluß, ∂B der durch den Rand von B nach außen tritt. Aus (25.4) folgt für einen zusammenhängenden (kleinen) Bereich B wie eben I hf , ni ds = ∂B ZZ div f dx dy = div f (x0 , y0 ) · µ(B). B Die Divergenz von f ist also die Rate (= Flüssigkeit pro Flächeneinheit), mit der Flüssigkeit aus dem Punkt (x , y)T herausströmt. Ist div f (x, y) = 0 für alle (x , y)T ∈ D, so heißt die Flüssigkeit inkompressibel. 25.3 Flächen, Flächenintegrale Das Bild eines eindimensionalen Gebietes (Intervalls) heißt Kurve. Entsprechend sind Flächen die Bilder von zweidimensionalen Gebieten im IRn . Wir betrachten im folgenden nur Flächen im IR3 . 25.3. FLÄCHEN, FLÄCHENINTEGRALE 149 Definition 25.31. Abbildung 25.6 Parameterbereich und Parameterdarstellung Sei P ⊂ IR2 ein Gebiet und x : P̄ → IR3 , x1 (u, v) u 7 x2 (u, v) , → v x3 (u, v) ∂ eine stetig differenzierbare Abbildung. Für alle (u, v)T ∈ P seien die Vektoren x(u, v) ∂u ∂ u und x(u, v) linear unabhängig. Dann heißt F := {x(u, v) : ∈ P̄ } eiv ∂v ne Fläche (genauer ein Flächenstück) im IR3 . P heißt Parameterbereich und (x, P ) heißt Parameterdarstellung von F . Beispiel 25.32. R cos v T (u, v) → 7 x := R sin v hu P = (0, 1) × (0, 2π), stellt den Mantel eines Zylinders dar mit dem Radius R und der Höhe h. 0 ∂x = 0 ∂u h −R sin v ∂x = R cos v ∂v 0 und 2 sind linear unabhängig. Beispiel 25.33. P = (0, 1) × (0, 2π), beschreibt den Mantel eines Kegels. R(1 − u) cos v u 7→ x := R(1 − u) sin v v hu 2 150 KAPITEL 25. INTEGRALSÄTZE Beispiel 25.34. Die Kugelsphäre mit dem Radius R kann man parametrisieren durch π π P = (0, 2π) × (− , ), 2 2 R cos u cos v (u, v) → 7 x(u, v) := R sin u cos v . R sin v Schränkt man den Parameterbereich ein auf π P = (0, 2π) × (v0 , ) 2 mit R−h , R so erhält man die Kugelkappe mit der Höhe v0 := sin 2 h < R aus Abbildung 25.7. Abbildung 25.7 Beispiel 25.35. Ähnlich wie in Beispiel 25.34. kann man die Oberfläche des Ellipsoids mit den Halbachsen a, b, c > 0 parametrisieren durch π π P = (0, 2π) × (− , ), 2 2 a cos u cos v (u, v) → 7 x(u, v) := b sin u cos v . c sin v 2 Beispiel 25.36. Läßt man einen Kreis {(x, 0, z)T ∈ IR3 : (x − R)2 + z 2 = r2 } mit dem Radius r ∈ (0, R) und dem Mittelpunkt (R, 0, 0)T um die z-Achse rotieren, so erhält man einen Torus. Diesen kann man parametrisieren durch P = [0, 2π) × (0, 2π), (R + r cos v) cos u u 7→ x(u, v) := (R + r cos v) sin u . v r sin v 2 Beispiel 25.37. Sei P ⊂ IR2 ein Gebiet und φ : P̄ → IR differenzierbar. Dann ist der Graph {(x1 , x2 , φ(x1 , x2 ))T : (x1 , x2 )T ∈ P } ⊂ IR3 von φ ein Flächenstück ∂x in IR3 mit der Parametrisierung x(u, v) := (u, v, φ(u, v))T , denn die Vektoren = ∂u ∂φ T ∂x ∂φ T 1, 0, und = 0, 1, sind sicher linear unabhängig. 2 ∂u ∂v ∂v Wir betrachten nun ein allgemeines Flächenstück F im IR3 mit der Parameterdarstellung (x, P ). Es sei t 7→ (u(t), v(t))T , a ≤ t ≤ b, 25.3. FLÄCHEN, FLÄCHENINTEGRALE 151 eine glatte Kurve in P . Dann ist t 7→ x(u(t), v(t)), a≤t≤b eine glatte Kurve C im IR3 , die ganz in der Fläche F verläuft. Der Tangentenvektor an C in x̂ = x(û, v̂), (û , v̂)T : = (u(t̂) , v(t̂))T , ist dann nach der Kettenregel T = ∂ ∂ x(û, v̂) u̇(t̂) + x(û, v̂) v̇(t̂). ∂u ∂v Dies bedeutet: Betrachtet man alle Kurven, die ganz in F verlaufen, durch den Punkt (û, v̂)T , so liegen deren Tangenten alle in der von den speziellen Tangentenvektoren ∂ T u := ∂u −1 ∂ x(û, v̂) 2 ∂u x(û, v̂) der Kurve u 7−→ x(u, v̂) und ∂ T v := ∂v −1 ∂ x(û, v̂) 2 ∂v x(û, v̂) der Kurve v 7−→ x(û, v) aufgespannten Ebene. Definition 25.38. Die Ebene n E = x(û, v̂) + λ o ∂x ∂x (û, v̂) + µ (û, v̂) : λ, µ ∈ IR . ∂u ∂v heißt Tangentialebene an F in x(û, v̂). Definition 25.39. Der auf der Tangentialebene senkrecht stehende Vektor n := Tu × Tv kT u × T v k2 heißt Normaleneinheitsvektor von F in x(û, v̂). Bemerkung 25.40. Wegen der linearen Unabhängigkeit von T u und T v ist T u × T v 6= 0, und daher ist n überall in x(P ) definiert. 2 Bemerkung 25.41. Bei einer anderen Parametrisierung von F kann der Normaleneinheitsvektor n in die entgegengesetzte Richtung zeigen kann (man vertausche nur die Reihenfolge von u und v). Bis auf diese Unbestimmtheit des Vorzeichens ist aber n eindeutig festgelegt. 2 152 KAPITEL 25. INTEGRALSÄTZE Beispiel 25.42. Ist insbesondere F der Graph einer Funktion von zwei Variablen u u 7 → v , − v φ(u, v)) so gilt (bis auf die Normierung) 1 0 Tu = ∂φ ∂u 0 1 und T v = ∂φ , ∂v und daher ist der Normaleneinheitsvektor n= ∂φ 1 ∂φ T Tu × Tv =r , − ,1 − 2 2 kT u × T v k2 ∂u ∂v ∂φ ∂φ 1 + ∂u + ∂v und die Tangentialebene im Punkt x̂ = (û, v̂, φ(û, v̂))T E= φ(û, v̂) + λ û + λ v̂ + µ : λ, µ ∈ IR . ∂ ∂ φ(û, v̂) + µ ∂v φ(û, v̂) ∂u 2 Abbildung 25.8 Inhalt einer Fläche Entsprechend der Bogenlänge einer Kurve wollen wir nun den Inhalt einer Fläche definieren. Dazu betrachten wir zunächst den Fall, daß der Parameterbereich P ein Rechteck ist: P = {(u, v)T : a < u < b, c < v < d}. 25.3. FLÄCHEN, FLÄCHENINTEGRALE Wir zerlegen P = [ 153 Pk` in Teilrechtecke Pk` = (uk−1 , uk ) × (v`−1 , v` ). Diese Zerle- k,` gung induziert eine Zerlegung von F = [ x(Pk` ). Wir ersetzen das zu Pk` gehörende k,` Flächenstück x(Pk` ) durch das Parallelogramm Tk` in der Tangentialebene im Punkte x(uk−1 , v`−1 ) mit den Seiten ∂ ∂ x(uk−1 , v`−1 )(uk − uk−1 ), x(uk−1 , v`−1 )(v` − v`−1 ). ∂u ∂v Dieses hat den Inhalt ∂ ∂ x(uk−1 , v`−1 ) × x(uk−1 , v`−1 ) (uk − uk−1 )(v` − v`−1 ). ∂u ∂v 2 Summiert man über alle Parallelogramme dieses Typs, so erhält man X ∂ ∂ x(uk−1 , v`−1 ) × x(uk−1 , v`−1 ) (uk − uk−1 )(v` − v`−1 ), k,` ∂u ∂v 2 und diese Summe konvergiert bei Verfeinerung der Zerlegung gegen Z ∂ ∂ x(u, v) × x(u, v) d(u, v). P ∂u ∂v 2 Dies motiviert die folgende Definition 25.43. Sei F eine Fläche mit der Parameterdarstellung (x, P ). Dann heißt Z Z ∂ ∂ do := x(u, v) × x(u, v) d(u, v) ∂u P F ∂v 2 (25.5) der Oberflächeninhalt von F und ∂ do := ∂u x(u, v) × ∂ x(u, v) d(u, v) 2 ∂v heißt das infinitesimale Oberflächenelement der Fläche (x, P ). Bemerkung 25.44. Ist speziell F der Graph einer Funktion φ : IR2 ⊃ P → IR erhält man Z F do = Z s 1+ P ∂φ 2 ∂u + ∂φ 2 ∂v d(u, v). 2 Beispiel 25.45. Die Oberfläche des Paraboloids F , das durch u u , (u, v)T ∈ P := {(u, v)T : u2 + v 2 ≤ 2} v 7−→ v 2 − u2 − v 2 154 KAPITEL 25. INTEGRALSÄTZE definiert ist, ist Z do = F Z √ 1 + 4u2 + 4v 2 d(u, v). P Die Einführung von Polarkoordinaten liefert √ Z do = Z2π Z 2√ 0 F 0 3 1 1 + 4r2 r dr dφ = 2π (1 + 4r2 ) 2 12 √2 = 0 13 π. 3 2 Beispiel 25.46. Es sei f : [a, b] → IR differenzierbar und nichtnegativ. Dann kann man die Mantelfläche des durch f erzeugten Rotationskörpers parametrisieren durch f (t) cos φ x(t, φ) := f (t) sin φ , a ≤ t ≤ b, 0 ≤ φ < 2π. t Es gilt f 0 (t) cos φ −f (t) sin φ ∂x ∂x = f 0 (t) sin φ , = f (t) cos φ , ∂t ∂φ 1 0 und daher folgt −f (t) cos φ ∂x ∂x × = −f (t) sin φ . ∂t ∂φ f 0 (t) f (t) Das Oberflächenelement ist also do = q f 2 (t) cos2 φ + f 2 (t) sin2 φ + (f 0 (t))2 f 2 (t) d(t, ϕ) q = f (t) 1 + f 0 (t)2 d(t, ϕ), und man erhält wie in Abschnitt ?? die Mantelfläche des Rotationskörpers als Z do = Z2π Zb q f (t) 1 + f 0 (t)2 dt dφ 0 a F = 2π Zb q f (t) 1 + f 0 (t)2 dt. a 2 Wir geben nun noch eine alternative Darstellung des Oberflächenelements an, die auf Gauß zurückgeht. Nach Satz ?? gilt für a, b ∈ IR3 ka × bk22 = kak22 kbk22 − ha, bi2 . 25.3. FLÄCHEN, FLÄCHENINTEGRALE 155 Daher ist mit ∂x 2 , F := h E := ∂u 2 das infinitesimale Oberflächenelement do = √ ∂x ∂x , i, ∂u ∂v ∂x 2 G := ∂v 2 EG − F 2 d(u, v). Wir haben hier die in der Literatur üblichen Bezeichnungen E, F und G gewählt, da aus dem Zusammenhang klar wird, daß mit F keine Fläche bezeichnet sein kann. Beispiel 25.47. Für das infinitesimale Oberflächenelement der Sphäre vom Radius R erhält man mit der Parametrisierung R cos u cos v x = R cos u sin v , R sin u − π π < u < , 0 < v < 2π, 2 2 wegen − sin u cos v − cos u sin v ∂x ∂x = R · − sin u sin v , = R · cos u cos v , ∂u ∂v cos u 0 zunächst E = R2 , G = R2 cos2 u, F = 0, und daher do = R2 cos u d(u, v), − π π < u < , 0 < v < 2π. 2 2 Die Oberfläche der Kugel ist damit Z do = π/2 Z2π Z R2 · cos u du dv = 4π · R2 . 0 −π/2 K 2 Beispiel 25.48. Wir berechnen die Oberfläche des Torus T aus Beispiel 25.36. Es gilt −(R + r cos v) sin u ∂x = (R + r cos v) cos u , ∂u 0 −r sin v cos u ∂x = −r sin v sin u . ∂v r cos v Hiermit erhält man E = (R + r cos v)2 , F = 0 und G = r2 , und daher ist die Oberfläche des Torus Z T do = Z2π Z2π (R + r cos v)r du dv = 4π 2 rR. 0 0 2 156 KAPITEL 25. INTEGRALSÄTZE Satz 25.49. Das Integral (25.5), das den Oberflächeninhalt definiert, ist unabhängig von der gewählten Parametrisierung der Fläche. Beweis: Es sei (x, P ) eine Parameterdarstellung von F . Es sei Φ : Q → P eine C 1 -Umparametrisierung, d.h. wir betrachten die weitere Parameterdarstellung (x̃, Q), x̃ := x ◦ Φ. Dann gilt nach der Kettenregel Dx̃(s, t) = Dx(u, v) DΦ(s, t) mit (u , v)T = Φ(s, t), d.h. ∂Φ1 ∂ x̃ ∂ x̃ ∂x ∂x ∂s , , = ∂s ∂t ∂u ∂v ∂Φ2 ∂s ∂Φ1 ∂x ∂Φ ∂x ∂Φ2 ∂x ∂Φ1 ∂x ∂Φ2 1 ∂t = + , + , ∂Φ2 ∂u ∂s ∂v ∂s ∂u ∂t ∂v ∂t ∂t und daher ∂x ∂Φ ∂ x̃ ∂ x̃ ∂x ∂Φ2 ∂x ∂Φ1 ∂x ∂Φ2 1 × = + × + ∂s ∂t ∂u ∂s ∂v ∂s ∂u ∂t ∂v ∂t ∂Φ ∂Φ ∂Φ2 ∂Φ1 ∂x ∂x 1 2 − × , = · ∂s ∂t ∂s ∂t ∂u ∂v und der Transformationssatz für Integrale liefert Z Z ∂ x̃ ∂x ∂ x̃ ∂x × d(s, t) = × · | det DΦ| d(s, t) Q ∂s ∂t Q = ∂u ∂v Z ∂x ∂x × d(u, v). P ∂u ∂v Definition 25.50. Ist f : IR3 ⊃ F → IR eine skalare Funktion, so führen dieselben Überlegungen wie bei dem Oberflächeninhalt dazu, daß das Oberflächenintegral von f über F definiert wird durch Z F f (x) do := Z P ∂x f (x(u, v)) ∂u (u, v) × ∂x (u, v) d(u, v). ∂v Beispiel 25.51. Eine halbkugelförmige Metallkuppel mit dem Mittelpunkt 0 und dem Radius 4m habe im Punkt x die Dichte ρ(x) = 36 − x21 − x22 Wie groß ist die Gesamtmasse m der Kuppel? kg . m2 25.3. FLÄCHEN, FLÄCHENINTEGRALE Die Kuppel kann man mit φ(u, v) := √ 157 16 − u2 − v 2 parametrisieren durch u u 7−→ v , u2 + v 2 ≤ 16. v φ(u, v) Daher gilt s 1+ do = s 1+ = ∂φ 2 ∂u + ∂φ 2 ∂v d(u, v) u2 v2 4 + d(u, v) = √ d(u, v), 2 2 2 2 16 − u − v 16 − u − v 16 − u2 − v 2 und damit (mit Polarkoordinaten) m= Z P ρ(x) do = Z2π Z4 4 2 (36 − r ) √ 0 0 Z 4 36 − r2 √ r dr dφ = 8π r dr. 16 − r2 16 − r2 0 Mit der Variablentransformation 16 − r2 = t2 ist daher m = 8π Z0 (20 + t2 )t−1 (−t dt) = 8π 4 304 ≈ 2547kg. 3 2 Das Kurvenintegral eines Vektorfeldes hatten wir motiviert durch der Begriff Arbeit. Das Oberflächenintegral eines Vektorfeldes kann man folgendermaßen motivieren: Gegeben sei eine stationäre Strömung, die durch das Geschwindigkeitsfeld w = w(x) beschrieben werde. Es sei x(u, v), (u, v)T ∈ P , die Parameterdarstellung einer Fläche F im Raum, die fluiddurchlässig sei. Wir fragen nach der Fluidmenge, die pro Zeiteinheit durch die Fläche hindurchtritt. Dazu betrachten wir ein Flächenelement ∆F um den Flächenpunkt x. Es sei n(x) der Normaleneinheitsvektor in x auf F , I(∆F ) der Flächeninhalt von ∆F und w(x) die Strömungsgeschwindigkeit in x. Dann ist die durch ∆F hindurchtretende Flüssigkeitsmenge pro Zeiteinheit approximativ hw(x), n(x)i I(∆F ). Zerlegt man die Fläche in Oberflächenelemente und summiert man auf , so erhält man die (Riemann)Summe X hw(xi ), n(xi )i I(∆Fi ). i Bei Verfeinerung der Zerlegung konvergieren diese gegen das Oberflächenintegral der skalaren Funktion hw(x), n(x)i. Wir definieren daher 158 KAPITEL 25. INTEGRALSÄTZE Definition 25.52. Es sei w : IR3 ⊃ D → IR3 ein Vektorfeld und F ⊂ D eine Fläche in D. Dann heißt Z w(x) do : = F Z hw(x), n(x)i do, F das Oberflächenintegral von w über F . Bemerkung 25.53. Entsprechend Satz 25.49. sind auch die Integrale von skalaren Funktionen und von Vektorfeldern über Flächen unabhängig von der gewählten 2 Parametrisierung. Bemerkung 25.54. Setzt man f : IR3 ⊃ D → IR, f (x) := hw(x), n(x)i, so stimmt das Oberflächenintegral des Vektorfeldes w mit dem der skalaren Funktion 2 f überein. Bemerkung 25.55. Wegen ! ∂x −1 ∂x n(x) = (u, v) × (u, v) · ∂u ∂v ∂x ∂x (u, v) × (u, v) ∂u ∂v 2 kann man das Integral von w über F entsprechend Definition 25.50. auch schreiben als Z Z w(x) do = F hw(x(u, v)), P ∂x ∂x (u, v) × (u, v)i d(u, v). ∂u ∂v 2 Beispiel 25.56. Es sei F := {(u, v, √ 1 − u2 − v 2 )T : u2 + v 2 ≤ 1} die Mantel- fläche der oberen Halbkugel und das Geschwindigkeitsfeld einer Strömung w(x) := (x22 , x21 , x3 )T . Welche Fluidmenge tritt pro Zeiteinheit durch F ? Es gilt u 1 − u2 − v 2 ∂x ∂x v , × = √ ∂u ∂v 1 − u2 − v 2 1 √ und daher Z w(x) do = Z (v 2 , u2 , u2 +v 2 <1 F = Z u2 +v 2 ≤1 √ ∂x 1 − u2 − v 2 ) ∂u × ∂x d(u, v) ∂v √ uv 2 + u2 v √ + 1 − u2 − v 2 d(u, v) 1 − u2 − v 2 25.4. INTEGRALSÄTZE VON STOKES UND GAUSS = Z1 Z2π √ 0 0 = Z1 √ r3 2 2 1 − r2 r dφ dr (cos φ sin φ + sin φ cos φ) + 1 − r2 √ r4 1 1 3 3 √ cos φ + sin φ + r 1 − r2 φ − 3 3 1 − r2 2π 0 = 2π 159 Z1 √ 0 3 1 r 1 − r2 dr = 2π − (1 − r2 ) 2 3 1 0 dr 0 2 = π. 3 2 Ist allgemeiner als in Beispiel 25.56. F der Graph einer Funktion φ : IR2 ⊃ D → IR und w : IR3 → IR3 ein Vektorfeld, so gilt w1 w2 w3 ∂x ∂x hw, × i = det 1 0 φu = −w1 φu − w2 φv + w3 , ∂u ∂v 0 1 φv und daher ist der Fluß von w durch die Fläche F Z do = F 25.4 Z (−w1 φu − w2 φv + w3 ) d(u, v). D Integralsätze von Stokes und Gauß In diesem Abschnitt wollen wir den Greenschen Integralsatz (in seiner Gestalt Korollar 25.29. bzw. Korollar 25.30.) auf Vektorfelder f : IR3 ⊃ D → IR3 übertragen. Satz 25.57. (Integralsatz von Stokes) Es sei f : IR3 ⊃ D → IR3 ein C 1 ◦ Vektorfeld und F ⊂ D eine Fläche mit der Parameterdarstellung (x, P ), wobei P ein Greenscher Bereich ist, und sei ∂F eine stückweise glatte Kurve. Dann gilt Z F hrot f (x), ni do = I f (x) dx. ∂F Dabei sind die Orientierung der Randkurve und die Richtung der Normale n folgendermaßen aufeinander abzustimmen: Bewegt man sich entlang der Randkurve, wobei man sich im Sinne der Normalen “auf der Fläche” befindet, so liegt die Fläche links. 160 KAPITEL 25. INTEGRALSÄTZE Abbildung 25.9 Orientierung des Randes und der Normale Beweis: Zunächst gilt Z hrot f (x), ni do = F Z ∂x ∂x × i d(u, v) ∂u ∂v hrot f (x(u, v)), P = ∂x ∂x 2 3 Z n (D2 f3 − D3 f2 ) P ∂u ∂v − ∂x2 ∂x3 ∂v ∂u ∂x1 ∂x3 ∂x1 ∂x3 + ∂u ∂v ∂v ∂u o ∂x ∂x ∂x 2 1 ∂x2 1 + (D1 f2 − D2 f1 ) − d(u, v). ∂u ∂v ∂v ∂u + (D3 f1 − D1 f3 ) − Ist t 7→ (u(t), v(t))T , t ∈ [a, b], eine Parameterdarstellung des Randes ∂P von P , so gilt nach dem Greenschen Satz (genauer Korollar 25.22.) Zb f1 (x(u(t), v(t))) a = Zb d x1 (u(t), v(t)) dt dt ∂x f1 (x(u(t), v(t))) ∂u a = Z n ∂ ∂u P f1 (x(u, v)) 1 (u(t), v(t)) u̇(t) + ∂x1 (u(t), v(t)) v̇(t) dt ∂v o ∂x1 ∂ ∂x1 (u, v) − f1 (x(u, v)) (u, v) d(u, v). ∂v ∂v ∂u Für den Integranden gilt {. . .} = 3 ∂xj ∂x1 ∂ 2 x1 X ∂xj ∂x1 ∂ 2 x1 Dj f1 + f1 − Dj f1 + f1 ∂u ∂v ∂u∂v ∂v ∂u ∂u∂v j=1 j=1 3 X = D2 f1 ∂x ∂x 2 1 ∂u ∂v − ∂x ∂x ∂x2 ∂x1 ∂x3 ∂x1 3 1 + D3 f1 − . ∂v ∂u ∂u ∂v ∂v ∂u Genauso erhält man Zb a f2 (x(u(t), v(t))) d x2 (u(t), v(t)) dt dt 25.4. INTEGRALSÄTZE VON STOKES UND GAUSS = Z n D3 f2 ∂x ∂x 2 3 P ∂v ∂u − 161 ∂x ∂x ∂x2 ∂x3 ∂x1 ∂x2 o 2 1 − + D1 f2 d(u, v) ∂u ∂v ∂u ∂v ∂v ∂u und Zb f3 (x(u(t), v(t))) a = Z n D1 f3 d x3 (u(t), v(t)) dt dt ∂x ∂x 1 3 P ∂u ∂v − ∂x ∂x ∂x1 ∂x3 ∂x2 ∂x3 o 2 3 + D2 f3 − d(u, v). ∂v ∂u ∂u ∂v ∂v ∂u t 7→ x(u(t), v(t)), t ∈ [a, b], ist eine Parametrisierung von ∂F . Daher folgt durch Summation der letzten drei Ausdrücke I f (x) dx = Zb X 3 fi (x(u(t), v(t))) a i=1 ∂F = Z d xi (u(t), v(t)) dt dt hrot f (x), ni do. F Beispiel 25.58. Es sei F := {y ∈ IR3 : y12 + y22 + y32 = 4, y3 > 0} die obere Halbkugel mit dem Radius 2 und f (x) := (−x2 , x1 , 1)T . Wir parametrisieren F durch P ={ u v u 2 2 v : u + v ≤ 4}, x(u, v) = √ . 4 − u2 − v 2 ∂F ist der Kreis in der x1 -x2 -Ebene um den Nullpunkt mit Radius 2, den wir parametrisieren können durch 2 cos t t 7−→ 2 sin t , 0 ≤ t ≤ 2π. 0 Hiermit gilt Z ∂F f (x) dx = Z2π 0 Z2π −2 sin t −2 sin t 2 cos t 2 cos t h , i dt = (4 sin2 t + 4 cos2 t) dt = 8π. 1 0 0 162 KAPITEL 25. INTEGRALSÄTZE Andererseits ist rot f (x) = (0 , 0 , 2)T und mit φ(x1 , x2 ) = q 4 − x21 − x22 ∂φ ∂φ T ,− ,1 ∂x ∂x 1 2 , n(x) = s ∂φ 2 ∂φ 2 + 1+ ∂x1 ∂x2 − d.h. 2 hrot f (x), n(x)i = s , ∂φ 2 ∂φ 2 1+ + ∂x1 ∂x2 und daher Z hrot f (x), n(x)i do = 2 Z d(u, v) = 8π. u2 +v 2 ≤4 F 2 Wir kommen zurück zu der Frage, unter welchen zusätzlichen Bedingungen aus rot f (x) = 0 folgt, daß f : IR3 ⊃ D → IR3 aus einem Potential herleitbar ist. Im Falle n = 2 haben wir bemerkt, daß es genügt, zusätzlich zu fordern, daß D einfach zusammenhängend ist. Im Falle n = 3 genügt die folgende Bedingung: Abbildung 25.10 Definition 25.59. D ⊂ IRn heißt sternförmig bzgl. x0 ∈ D, wenn für jedes x ∈ D die Verbindungsgerade S(x0 , x) := {x0 + t(x − x0 ) : 0 ≤ t ≤ 1} in D liegt. Bemerkung 25.60. Insbesondere ist D sternförmig bzgl. x0 , wenn D eine konvexe Menge ist (d.h. mit je zwei Punkten auch die Verbindungsstrecke in D liegt). 2 Satz 25.61. Sei D ⊂ IR3 ein bzgl. x0 ∈ D sternförmiges Gebiet und f : D → IR3 stetig differenzierbar mit rot f (x) = 0 für alle x ∈ D. Dann ist f aus einem Potential F : D → IR herleitbar. Beweis: Da D sternförmig bzgl. x0 ist, liegt mit x0 die Verbindungsstrecke S(x0 , x) von x0 nach x in D, und es ist F (x) := Z S(x0 , x) f (x) dx 25.4. INTEGRALSÄTZE VON STOKES UND GAUSS 163 definiert. Sei h ∈ IR3 \ {0} so gewählt (d.h. khk klein genug), daß das Dreieck ∆ mit den Eckpunkten x0 , x und x + h in D liegt. Dann gilt Z F (x + h) = f (x) dx S(x0 , x + h) = − Z Z f (x) x + ∂∆ Z f (x) dx + S(x, x + h) f (x) dx. S(x0 , x) Nach dem Stokesschen Satz gilt Z f (x) dx = Z hrot f (x), n(x)i do = 0, ∆ ∂∆ und damit Z F (x + h) − F (x) = f (x) dx. S(x, x + h) Daher folgt nach dem Mittelwertsatz der Integralrechnung (Satz ??) mit einem θ ∈ (0, 1) 1 |F (x + h) − F (x) − hf (x), hi| khk2 1 1 Z hf (x + th), hi dt − hf (x), hi = khk2 0 1 = |hf (x + θh), hi − hf (x), hi| ≤ kf (x + θh) − f (x)k2 . khk2 Die Richtungsableitung von F in Richtung h ist also hf (x), hi. Setzt man speziell für h die Einheitsvektoren e1 , e2 , e3 ein, so folgt f (x) = ∇F (x). Insgesamt haben wir damit gezeigt: f : IR3 ⊃ D → IR3 ist aus Potential herleitbar (f (x) = ∇F (x)) ⇐⇒ I f wirbelfrei ( f (x) dx = 0 für alle C ⊂ D geschlossen ) C ⇒ D sternförmig ⇒ rot f (x) = 0 für alle x ∈ D f ist aus einem Potential herleitbar. Die Voraussetzung der Sternförmigkeit des Gebietes kann in folgender Weise abgeschwächt werden. 164 KAPITEL 25. INTEGRALSÄTZE Definition 25.62. Es seien D, D̃ ⊂ IRn Gebiete. Eine Abbildung Φ : D → D̃ heißt C r -Diffeomorphismus zwischen D und D̃, wenn die Umkehrabbildung Φ−1 : D̃ → D existiert und wenn beide Abbildungen, Φ und Φ−1 , r-mal stetig differenzierbar sind. Definition 25.63. Ein Gebiet D ⊂ IRn heißt einfach, wenn D das C 2 -diffeomorphe Bild eine sternförmigen Gebietes D0 ⊂ IRn ist. Beispiel 25.64. Der geschlitzte Kreisring {(x, y)T : ri2 < x2 + y 2 < ra2 } \ {(x, 0)T : x < 0} ist ein einfaches Gebiet, denn (r , r ) × (−π, π) → i a Φ : (r, ϕ) 7→ IR2 (r cos ϕ, r sin ϕ) 2 ist ein C 2 -Diffeomorphismus. Es sei nun D ⊂ IR3 einfach und f : D → IR3 ein Vektorfeld mit rot f (x) = 0. Dann gibt es ein sternförmiges Gebiet D0 und einen C 2 -Diffeomorphismus Φ : D0 → D mit D = Φ(D0 ). Um die Existenz eines Potentials von f nachzuweisen, verpflanzen wir f auf D0 und zeigen für das verpflanzte Vektorfeld g := f ◦ Φ, daß rot g = 0 gilt. Daher besitzt g ein Potential G : D0 → IR, das mit Φ−1 zurückverpflanzt wird. Sei F ein Potential von f und G := F ◦ Φ : D0 → IR. Dann gilt ∂G ∂xj ∂ ∂Φ (F ◦ Φ) = F 0 (Φ(x)) ∂xj ∂xj ∂Φ = hf ◦ Φ, i, j = 1, 2, 3. ∂xj = Es ist also G ein Potential des Vektorfeldes g(x) = 3 X j=1 hf ◦ Φ, ∂Φ j ie . ∂xj 25.4. INTEGRALSÄTZE VON STOKES UND GAUSS 165 Dies zeigt, wie das Vektorfeld f , zu dem ein Potential gesucht wird, mit Hilfe von Φ zu verpflanzen ist. Wir definieren zu f g(x) := 3 X hf (Φ(x)), j=1 ∂Φ j ie , x ∈ D0 . ∂xj Wegen ∂fi ∂fj = , i, j = 1, 2, 3, ∂xj ∂xi ∂ 2 Φk ∂2Φ = , i, j, k = 1, 2, 3 ∂xi ∂xj ∂xj ∂xi und folgt für alle i, j = 1, 2, 3 3 ∂gj ∂ X ∂Φk = (x) fk (Φ(x)) ∂xi ∂xi k=1 ∂xj = = = 3 X 3 X ∂fk k=1 `=1 3 X 3 X 3 ∂Φ` ∂Φk X ∂ 2 Φk + fk (Φ(x)) ∂xi ∂xj k=1 ∂xj ∂xi 3 ∂f` ∂Φk ∂Φ` X ∂ 2 Φ` (Φ(x)) + f` (Φ(x)) ∂xj ∂xi `=1 ∂xi ∂xj `=1 k=1 ∂xk 3 X ∂ `=1 = ∂x` (Φ(x)) ∂xj 3 ∂ X ∂xj ∂Φ f` (Φ(x)) f` (Φ(x)) `=1 ` ∂xi + 3 X f` (Φ(x)) `=1 ∂ ∂Φ` ∂xj ∂xi ∂Φ` ∂gi (x) = . ∂xi ∂xj Es ist also rot g = 0 in D0 , und da D0 sternförmig ist, besitzt g ein Potential G : D0 → IR. Wir zeigen, daß F : D → IR, F := G ◦ Φ−1 ein Potential von f ist. Wegen G = F ◦ Φ folgt mit der Kettenregel für y = Φ(x), x ∈ D0 , hf (y), ∂Φ ∂G ∂ i = gi (x) = (x) = F ◦ Φ)(x) ∂xi ∂xi ∂xi ∂Φ (x)i, i = 1, 2, 3, = h∇F (y), ∂xi d.h. ∂Φ (x)i = 0, i = 1, 2, 3. ∂xi Da Φ ein Diffeomorphismus ist, sind die Spalten von hf (y) − ∇F (y), ∂Φ (x), ∂xi i = 1, 2, 3 linear unabhängig, und daher folgt f (y) − ∇F (y) = 0 für alle y ∈ D. 166 KAPITEL 25. INTEGRALSÄTZE Beispiel 25.65. Wir führen die Konstruktion für das ebene Vektorfeld f : D := IR2 \ {(x, 0)T : x ≤ 0} → (x, y)T 7→ IR2 − y x2 +y 2 , x x2 +y 2 T durch. Die Abbildung D := (0, ∞) × (−π, π) → D 0 Φ : T (r , ϕ) 7→ (r cos ϕ , r sin ϕ)T ist ein C 2 -Diffeomorphismus von D auf D0 . Wir definieren daher ∂Φ i ∂r g(r, ϕ) = ∂Φ hf (Φ(r, ϕ)), i ∂ϕ ! 1 h r (− sin ϕ , cos ϕ)T , (cos ϕ , sin ϕ)T i 0 = = 1 h 1r (− sin ϕ , cos ϕ)T , (−r sin ϕ , r cos ϕ)T i hf (Φ(r, ϕ)), und erhalten damit G(r, ϕ) = Zr 0 hg(t, 0), i dt + 1 Zϕ hg(r, θ), 0 i dθ = ϕ. 1 0 1 Die Rücktransformation liefert ein Potential von f y F (x, y) = G ◦ Φ−1 (x, y) = arctan . x 2 Wir zeigen jetzt die Übertragung des Integralsatzes von Green in der Gestalt (25.4) auf den Fall n = 3. Satz 25.66. (Integralsatz von Gauß) Sei f : IR3 ⊃ D → IR3 ein stetig differenzierbares Vektorfeld auf der offenen Menge D, und es sei S ⊂ D ein Standardbereich, dessen Oberfläche ∂S aus endlich vielen glatten Flächenstücken bestehe. Bezeichnet n die äußere Normale auf ∂S, so gilt Z S Beweis: div f (x) dx = Z ∂S hf (x), n(x)i do. (25.6) 25.4. INTEGRALSÄTZE VON STOKES UND GAUSS Abbildung 25.11 Beweisskizze von Satz 25.66. Da S ein Standardbereich ist, kann man S bzgl. x3 projizieren, d.h. S = {x : x1 x2 ∈ S3 , φ(x1 , x2 ) ≤ x3 ≤ ψ(x1 , x2 )}, und der Rand von S besitzt die Darstellung x1 x1 o o n x1 x1 x2 x2 : ∈ S3 : ∈ S3 ∪ x2 x2 ψ(x1 , x2 ) φ(x1 , x2 ) x1 ∈ ∂S3 , φ(x1 , x2 ) ≤ x3 ≤ ψ(x1 , x2 )} =: ∂1 ∪ ∂2 ∪ ∂3 . ∪ {x : x2 ∂S = n Für die dritte Komponente der äußeren Normale gilt n3 = − s n3 n3 1 ∂φ 2 ∂φ 2 1+( ) +( ) ∂x1 ∂x2 1 =s , ∂ψ 2 ∂ψ 2 1+( ) +( ) ∂x1 ∂x2 = 0, , x ∈ ∂1 x ∈ ∂2 x ∈ ∂3 Damit folgt Z S Z ∂ f3 (x) dx = ∂x3 ψ(x Z1 ,x2 ) S3 φ(x1 ,x2 ) = Z f3 (x1 , x2 , ψ(x1 , x2 )) d(x1 , x2 ) − S3 = Z S3 ∂ f3 (x) dx3 d(x1 , x2 ) ∂x3 Z S3 f3 (x1 , x2 , ψ(x1 , x2 )) f3 (x1 , x2 , φ(x1 , x2 )) d(x1 , x2 ) 167 168 KAPITEL 25. INTEGRALSÄTZE s · 1+ + Z ∂ψ 2 ∂x1 (x1 , x2 ) + ∂ψ ∂x2 2 (x1 , x2 ) n3 (x1 , x2 ) d(x1 , x2 ) f3 (x1 , x2 , φ(x1 , x2 )) S3 s · = Z 1+ ∂φ 2 ∂x1 (x1 , x2 ) f3 (x) n3 (x) do + ∂2 = Z Z + ∂φ ∂x2 2 (x1 , x2 ) f3 (x) n3 (x) do + ∂1 Z n3 (x1 , x2 ) d(x1 , x2 ) f3 (x) n3 (x) do ∂3 f3 (x) n3 (x) do. ∂S Genauso erhält man durch Projektion von S bzgl. x1 und x2 Z S Z S Z ∂ f1 (x) dx = f1 (x) n1 (x) do, ∂x1 ∂S Z ∂ f2 (x) n2 (x) do, f2 (x) dx = ∂x2 ∂S und durch Addition dieser drei Gleichungen erhält man die Behauptung. Bemerkung 25.67. Der Beweis zeigt, daß der Gaußsche Satz auch für n > 3 gilt. 2 Tatsächlich wurde (ähnlich wie bei dem Integralsatz von Green) sogar das folgende Resultat gezeigt: Korollar 25.68. Es sei φ : IR3 ⊃ D → IR eine stetig differenzierbare skalare Funktion auf der offenen Menge D, und es sei S ⊂ D ein Standardbereich, dessen Oberfläche ∂S aus endlich vielen glatten Flächenstücken besteht. Bezeichnet n die äußere Normale auf ∂S, so gilt Z S Z ∂ φ(x) dx = φ(x) ni (x) do, i = 1, 2, 3. ∂xi (25.7) ∂S Strömungsmechanisch kann man den Integralsatz von Gauß so interpretieren: Ist S ein ortsfestes Volumen (mit durchlässiger Oberfläche) innerhalb eines inkompressiblen Fluids, so ist die rechte Seite von (25.6) die Bilanz des durch die Oberfläche pro Zeiteinheit in das Volumen mit der Geschwindigkeit f (x) ein- und ausströmenden Fluids. Befindet sich innerhalb S keine Quelle oder Senke, so muß diese Bilanz den Wert 0 haben. Dies wird aber durch die linke Seite von (25.6) zusammen mit der Kontinuitätsgleichung div f (x) = 0 richtig wiedergegeben. 25.4. INTEGRALSÄTZE VON STOKES UND GAUSS 169 Beispiel 25.69. Sei S = {x ∈ IR3 : x21 + x22 + x23 ≤ 1}, f (x) := (x1 , x2 , x3 )T . Es gilt Z div f (x) dx = 3 S Z dx = 4π. S Parametrisiert man ∂S mit den Kugelkoordinaten (φ, θ) 7→ (cos φ cos θ, sin φ cos θ, sin θ)T , 0 < φ < 2π, − π π <θ< , 2 2 so gilt wegen cos φ cos2 θ ∂x ∂x × = sin φ cos2 θ ∂φ ∂θ sin θ cos θ Z hf (x), n(x)i do ∂S = π/2 Z2π Z (x1 (φ, θ) cos φ cos2 θ + x2 (φ, θ) sin φ cos2 θ + x3 (φ, θ) sin θ cos θ) dθ dφ 0 −π/2 = π/2 Z2π Z (cos2 φ cos3 θ + sin2 φ cos3 θ + sin2 θ cos θ) dθ dφ 0 −π/2 = 2π π/2 Z 3 2 (cos θ + sin θ cos θ) dθ = 2π π/2 Z cos θ dθ = 4π. −π/2 −π/2 2 Beispiel 25.70. Wir betrachten noch einmal Beispiel 25.56.: √ Es sei F := {(u, v, 1 − u2 − v 2 )T : u2 + v 2 ≤ 1} und w(x) := (x22 , x21 , x3 )T . Bestimme Z w(x) do. F Es sei S := {x ∈ IR3 : x21 + x22 ≤ 1, 0 ≤ x3 ≤ q 1 − x21 − x22 }. n x1 o Dann gilt ∂S = F ∪ ∂E mit ∂E := x2 : x21 +x22 ≤ 1 , und nach dem Gaußschen 0 Integralsatz folgt Z w(x) do = F Z S div w(x) dx − Z w(x) do. ∂E Wegen div w(x) = 1 gilt Z S 2 div w(x) dx = vol(S) = π, 3 170 KAPITEL 25. INTEGRALSÄTZE und da der äußere Normalenvektor n(x) = (0 , 0 , −1)T von ∂E auf ∂E orthogonal zu w(x) = (x22 , x21 , 0)T ist, gilt Z w(x) do = ∂E Z hw(x), n(x)i do = 0. ∂E Zusammen erhalten wir also (vgl. Seite 158) Z F 2 w(x) do = π. 3 2 Beispiel 25.71. Als Anwendung des Gaußschen Integralsatzes leiten wir nun die Kontinuitätsgleichung her. Gegeben sei ein Fluid in D ⊂ IR3 . Es sei ρ(x, t) die Dichte des Fluids im Punkt x ∈ D zur Zeit t und v das (stationäre) Geschwindigkeitsfeld des Fluids. Es sei S ⊂ D ein Testvolumen mit der (stückweise glatten) Oberfläche ∂S, und es sei n die äußere Normale von ∂S. Dann ist Z Q1 := ρ(x, t)hv(x), n(x)i do (25.8) ∂S die Flüssigkeitsmasse, die pro Zeiteinheit aus S heraustritt. Die in S vorhandene Flüssigkeitsmasse ist Z ρ(x, t) dx. Ist ρ differenzierbar und S sind in S keine Quellen und Senken vorhanden, so ist die Fluidmasse, die aus S herausfließt, auch gegeben durch Q1 = − Z S ∂ρ (x, t) dx. ∂t Wendet man auf (25.8) den Gaußschen Integralsatz an, so folgt Z divx (ρ(x, t) v(x)) dx = − S Z S ∂ρ (x, t) dx, ∂t d.h. Z S (divx (ρ(x, t) v(x)) + ∂ρ (x, t)) dx = 0, ∂t (25.9) wobei divx bedeutet, daß die Divergenz bzgl. der Variablen x1 , x2 , x3 , nicht aber bzgl. t auszuwerten ist. 25.4. INTEGRALSÄTZE VON STOKES UND GAUSS 171 Da (25.9) für jedes Testvolumen S ⊂ D gilt, folgt divx (ρ(x, t) v(x)) + ∂ρ (x, t) = 0, x ∈ D, t ∈ IR, ∂t die Kontinuitätsgleichung. Ist ρ(x, t) konstant (dies bezeichnet man in der Strömungsmechanik als inkompressibel), so kann man die Kontinuitätsgleichung schreiben als divx v = 0, d.h. das Geschwindigkeitsfeld v ist inkompressibel. Ist die Strömung wirbelfrei, so besitzt das Geschwindigkeitsfeld v ein Potential φ (∇φ = v). Für dieses folgt div v = div (∇φ) = ∆φ = 0, 2 die Potentialgleichung. Beispiel 25.72. Als weitere Anwendung des Gaußschen Integralsatzes leiten wir die Wärmeleitungsgleichung her. Bei der Modelierung des Wärmetransports machen wir Gebrauch von den folgenden drei experimentell gewonnenen Gesetzen: (1) Wärme fließt von wärmeren in kältere Teil des Körpers. (2) Die Rate, mit der Wärme durch ein ebenes Flächenstück in dem Körper fließt, ist proportional zu dem Flächeninhalt und der Projektion des Temperaturgradienten auf die Flächennormale. (3) Die Wärmemenge in einem Körper ist proportional zu seiner Masse und seiner Temperatur. Wir betrachten den einfachen Fall, daß die Proportionalitätskonstanten in den obigen Gesetzen unabhängig von der Richtung sind. Ein solches Medium heißt thermisch isotrop. Für ein beliebiges Volumen V in dem Körper S ist die Wärmemenge in V gegeben durch Q(t) = Z cρu(x, t) dx, V wobei c die spezifische Wärme, ρ die Dichte und u(x, t) die Temperatur im Punkte x zur Zeit t ist. 172 KAPITEL 25. INTEGRALSÄTZE Nach den experimentellen Gesetzen (1) und (2) ist die Rate, mit der Wärme durch ein Flächenelement ∆F des Randes von V das Volumen V verläßt −k∇u·∆F , wobei k der Wärmeleitkoeffizient des Mediums ist. Daher ist die Rate, mit der Wärme das Volumen V verläßt Z (−k∇u(x)) do, ∂V und nach dem Gaußschen Integralsatz ist dies (wenn V ein Standardbereich ist) −k Z ∆x u(x, t) dx. V Gibt es in V keine Quellen und Senken, so muß dies gleich der Rate sein, mit der das Volumen Wärme verliert. Daher gilt Z dQ d Z − =− cρu(x, t) dx = −k ∆x u(x, t) dx, dt dt V V und da nach Satz 24.48. Z d Z ∂ u(x, t) dx u(x, t) dx = dt ∂t V gilt, erhält man schließlich Z k∆x u(x, t) − cρ v ∂ u(x, t) dx = 0. ∂t Da dies für jeden Standardbereich V ⊂ S gilt, folgt die Wärmeleitungsgleichung ∂ cρ ∂ u(x, t) =: κ u(x, t) = ∆x u(x, t) für alle x ∈ S und alle t ≥ 0. k ∂t ∂t 2 Abschließend beweisen wir noch eine wichtige Folgerung aus dem Gaußschen Integralsatz. Satz 25.73. (Greensche Formeln) Es seien f, g : IR3 ⊃ D → IR C 2 -Funktionen auf der offenen Menge D und S ⊂ D ein Standardbereich mit stückweise glattem Rand ∂S. Dann gelten die 1. Greensche Formel Z (f (x) ∆g(x) + h∇f (x), ∇g(x)i) dx = S ∂S 2. Greensche Formel Z Z (f (x) ∆g(x) − g(x) ∆f (x)) dx S = Z ∂S f (x) ∂g ∂f (x) − g(x) (x) do ∂n ∂n f (x) ∂g (x) do ∂n 25.4. INTEGRALSÄTZE VON STOKES UND GAUSS Hierbei bezeichnet auf ∂S. 173 ∂f die Richtungsableitung von f bzgl. der äußeren Normalen n ∂n Beweis: Mit v := f · ∇g gilt div v(x) = 3 X Di (f (x) Di g(x)) = i=1 3 X Di f (x) Di g(x) + f (x) Di2 g(x) i=1 = f (x) ∆g(x) + h∇f (x), ∇g(x)i, und aus dem Gaußschen Integralsatz folgt Z (f (x) ∆g(x) + h∇f (x), ∇g(x)i) dx S Z = div v(x) dx = S Z = Z hv(x), n(x)i do ∂S Z f (x)h∇g(x), n(x)i do = ∂S f (x) ∂S ∂g (x) do. ∂n Vertauscht man die Rollen von f und g, so gilt genauso Z (g(x) ∆f (x) + h∇f (x), ∇g(x)i) dx = S Z g(x) ∂S ∂f (x) do, ∂n und durch Subtraktion der letzten beiden Gleichungen erhält man die zweite Greensche Formel. Als Anwendung der 1. Greenschen Formel zeigen wir ein Eindeutigkeitsresultat für die Potentialgleichung. Es sei D ⊂ IR3 offen, φ : D → IR eine C 2 -Funktion. Für einen Standardbereich ◦ S ⊂ D gelte ∆φ(x) = 0 für alle x ∈S und φ(x) = 0 für alle x ∈ ∂S. Dann folgt mit f = g = φ Z S k∇φk22 dx = Z (φ ∆φ + h∇φ, ∇φi) dx = S Z φ ∂S ∂φ do = 0. ∂n Da ∇φ stetig in D ist, folgt ∇φ(x) = 0 für alle x ∈ S, und daher ist φ konstant auf S. Da φ(x) = 0 für x ∈ ∂S gilt, erhält man φ(x) = 0 für alle x ∈ S. Hieraus erhält man das gewünschte Eindeutigkeitsresultat: Sind f, g : D → IR C 2 -Funktionen und gilt ∆f (x) = ∆g(x) für alle x ∈ S ⊂ D und f (x) = g(x) für alle x ∈ ∂S, so Ofolgt yf (x) = g(x) für alle x ∈ S, denn die Funktion φ(x) := f (x) − g(x) erfüllt die Voraussetzungen für die obigen Überlegungen, für sie muß also φ(x) = 0 gelten. 174 KAPITEL 25. INTEGRALSÄTZE Bemerkung 25.74. Da der Gaußsche Integralsatz auch für Dimensionen n > 3 gilt, sind die Greenschen Formeln und damit auch das Eindeutigkeitsresultat für die Potentialgleichung für größere Dimensionen als 3 richtig. 2 Kapitel 26 Gewöhnliche Differentialgleichungen, Einführung Viele Naturgesetze lassen sich als Differentialgleichungen formulieren, d.h. als Gleichungen, in die neben den gesuchten Funktionen auch einige ihrer Ableitungen eingehen. 26.1 Beispiele Beispiel 26.1. Radioaktiver Zerfall Es sei m(t) die Masse einer radioaktiven Substanz zur Zeit t. Durch Beobachtung weiß man, daß für kleines ∆t die im Zeitintervall [t, t + ∆t) zerfallende Masse proportional zu ∆t und zu m(t) ist. Mit einem λ > 0 gilt also m(t + ∆t) = m(t) − λm(t) · ∆t, d.h. m(t + ∆t) − m(t) = −λm(t), ∆t und mit ∆t → 0 erhält man die den radioaktiven Zerfall beschreibende Differentialgleichung dm = −λm. dt Nach Korollar ?? besitzt (26.1) die eindeutige Lösung m(t) = m(t0 ) exp(−λ(t − t0 )). (26.1) 176 KAPITEL 26. GEW. DIFFERENTIALGLEICHUNGEN, EINFÜHRUNG Schreibt man also für einen Anfangszustand t0 die Masse m(t0 ) vor, so ist die Lösung 2 eindeutig bestimmt. In den meisten Problemen der Punktmechanik ist die Kraft, die auf einen Massenpunkt wirkt, durch seinen Ort, seine Geschwindigkeit und die Zeit bestimmt. Das Newtonsche Prinzip ( Kraft = Masse · Beschleunigung ) ergibt daher eine Gleichung der Form ẍ = f (t, x, ẋ). Dabei bedeutet t die Zeit, x den Ortsvektor des Massenpunktes, ẋ := dx bzw. ẍ := dt d2 x seine Geschwindigkeit bzw. Beschleunigung und F := mf (t, x, ẋ) die auf ihn dt2 wirkende Kraft. Beispiel 26.2. Federschwingung Wir betrachten eine Masse m, die an einer Feder aufgehängt ist. Lenkt man die Masse (parallel zur gezeichneten x-Achse) um die Länge x aus der Ruhelage aus, so übt die Feder (im Gültigkeitsbereich des Hookeschen Gesetzes, d.h. für kleine Auslenkungen) eine Rückstellkraft aus, die der Auslenkung entgegengerichtet und dem Betrage nach proportional ist: −cx (c > 0 heißt Federkonstante). Abbildung 26.1 Ferner wirkt der Bewegung eine geschwindigkeitsproportionale Reibung entgegen: −dẋ (d ≥ 0 heißt Dämpfungskonstante). Die Summe der auf m wirkenden äußeren Kräfte ist also −cx − dẋ, und nach dem Newtonschen Gesetz gilt mẍ = −cx − dẋ c d ≥ 0 und ω02 := >0 oder mit δ := 2m m ẍ + 2δ ẋ + ω02 x = 0. (26.2) (26.2) heißt Schwingungsgleichung. Die Lösungen x : IR → IR von (26.2) beschreiben die möglichen Bahnkurven des Massenpunktes in Abhängigkeit von der Zeit t. Die aktuelle Bahnkurve ist nicht nur durch die Bewegungsgleichung (26.2) festgelegt, sondern sie hängt auch vom Anfangszustand des Massenpunktes ab. Man muß zu 26.1. BEISPIELE 177 einem Zeitpunkt, z.B. t = 0, den Ort x(0) und die Geschwindigkeit ẋ(0) vorgeben und erhält die Anfangswertaufgabe ẍ + 2δ ẋ + ω02 x = 0, x(0) = x0 , ẋ(0) = v0 . 2 Beispiel 26.3. Mathematisches Pendel Der Trägheitskraft ms̈ des an einem masselosen Faden der Länge ` aufgehängten Massenpunktes wirken die s-Komponente der Erdbeschleunigung (K = −mg sin φ) und eine Reibungskraft entgegen. Die Bewegungsgleichung ist also ms̈ = −mg sin s − cṡ, ` eine nichtlineare Differentialgleichung. Abbildung 26.2 Auch hier wird die Lösung durch Vorgabe eines Anfangszustandes s(0) = s0 , ṡ(0) = v0 festgelegt. s s durch ersetzen, und man erhält wieder ` ` Für kleine Auslenkungen kann man sin die Schwingungsgleichung (26.2) mit δ := c 2m g und ω02 = . ` 2 Beispiel 26.4. Elektrischer Schwingkreis Für den Schwingkreis der Abbildung 26.3 gilt U (t) = UR + UL + UC sowie ˙ UR = I · R, I = C U̇C , UL = L I. Eliminiert man hieraus I, so erhält man Abbildung 26.3 178 KAPITEL 26. GEW. DIFFERENTIALGLEICHUNGEN, EINFÜHRUNG UR = RC U̇C , UL = LC ÜC d.h. LC ÜC + RC U̇C + UC = U (t). Auch hier muß (neben der äußeren Spannung U (t)) ein Anfangszustand UC (0), U̇C (0) 2 festgelegt werden, damit die Lösung eindeutig bestimmt ist. Beispiel 26.5. Knicklastproblem des Stabes Neben den Anfangswertaufgaben treten in den Anwendungen Randwertprobleme auf. Als Beispiel betrachten wir das Knicklastproblem des Stabes. Ein schlanker Stab der Länge `, sei einseitig eingespannt. Das andere Ende sei frei beweglich. In ihm greife eine Last P an, die in Richtung der Stabachse wirke. Abbildung 26.4 Für jeden Wert von P ist der Fall, daß die Stabachse gradlinig bleibt, als Gleichgewichtsfall möglich. Man weiß jedoch, daß es einen kritischen Wert P gibt, oberhalb dessen die gradlinige Lage nicht die stabile, sondern eine labile Gleichgewichtslage ist. Wir interessieren uns für den Beginn des Ausknickens. Die Gleichung der elastischen Linie y(x) lautet −ρ(x) = M (x) , E · J(x) y 00 (x) wobei ρ(x) = q 1 + y(x)2 3 die Krümmung im Punkte x, M (x) = P · y(x) das Biegemoment, E den Elastizitätsmodul und J(x) das Flächenträgheitsmoment bezeichnen. Beachtet man noch, daß sich aus der Lagerung des Stabes und der Lage des Koordinatensystems y 0 (`) = 0 (Ende eingespannt) und y(0) = 0 ergibt, so erhält man für die Lage des Stabes die beschreibende Randwertaufgabe −y 00 (x) = q 3 P 1 + y 0 (x)2 y(x), y(0) = 0, y 0 (`) = 0. E · J(x) (26.3) (Man beachte, daß y(x) ≡ 0 für alle Lasten P die Differentialgleichung und die Randbedingungen erfüllt). 26.2. GRUNDLEGENDE BEGRIFFE UND DEFINITIONEN 179 3 Für kleine Auslenkungen y(x) des Stabes kann man den Faktor (1 + y 0 (x)2 ) 2 durch den Faktor 1 ersetzen und erhält die Randeigenwertaufgabe −y 00 (x) = P y(x), y(0) = 0, y 0 (`) = 0. E · J(x) (26.4) Auch diese Aufgabe besitzt für alle P ∈ IR die triviale Lösung y(x) ≡ 0. Daneben gibt es Lasten 0 < P1 < P2 < . . . (Eigenwerte), für die (26.4) eine nichttriviale Lösung besitzt. Man kann zeigen (Verzweigungstheorie), daß genau für P > P1 die Aufgabe (26.3) eine nichttriviale Lösung besitzt. P1 ist die kritische Last, bei der die gradlinige Lage 2 des Stabes ihre Stabilität verliert. 26.2 Grundlegende Begriffe und Definitionen Definition 26.6. Es sei I ein reelles Intervall und F : I × (IRn )m+1 ⊃ D → IRk eine gegebene Funktion. Dann heißt die Gleichung F (x, y(x), y 0 (x), . . . , y (m) (x)) = 0, x ∈ I, (26.5) zur Bestimmung der Funktion y : I → IRn gewöhnliche Differentialgleichung der Ordnung m. Ist k > 1, so liegt in (26.5) genauer ein System von k gewöhnlichen Differentialgleichungen der Ordnung m zur Bestimmung der n gesuchten Funktionen y1 , . . . , yn : I → IR vor. Definition 26.7. In der Form (26.5) spricht man von einem impliziten Differentialgleichungssystem. Häufig verlangt man, daß man die Differentialglei(m) chungen nach den höchsten Ableitungen y1 , . . . , yn(m) lokal eindeutig auflösen kann (dann muß insbesondere k = n gelten). Man erhält dann ein explizites System y (m) (x) = f (x, y(x), y 0 (x), . . . , y (m−1) (x)). (26.6) Bemerkung 26.8. Es bedeutet keine Einschränkung der Allgemeinheit, sich auf Systeme erster Ordnung zu beschränken, denn ist das System der Ordnung m gegeben, so kann man dieses mit y k := y (k−1) , k = 1, . . . , m 180 KAPITEL 26. GEW. DIFFERENTIALGLEICHUNGEN, EINFÜHRUNG in das äquivalente System erster Ordnung transformieren: y01 = y2 y02 = y3 .. . (26.7) y 0 m = f (x, y 1 , y 2 , . . . , y m ). 2 Beispiel 26.9. Mit y1 := x und y2 := ẋ ist die Schwingungsgleichung (26.2) dem System y10 = y2 y20 = −ω02 y1 − 2δ y2 (26.8) 2 erster Ordnung äquivalent. Definition 26.10. Das Differentialgleichungssystem (26.6) heißt linear, wenn es die Gestalt y (m) (x) = m−1 X Ak (x) y (k) (x) + b(x) k=0 hat mit Matrizen Ak (x) ∈ IR(n,n) , die von der unabhängigen Variablen x abhängen dürfen. b : I → IRn heißt die Inhomogenität des Systems. Ist b(x) ≡ 0, so heißt das System homogen, sonst inhomogen. Sind die Ak unabhängig von x, so spricht man von einem linearen Differentialgleichungssystem mit konstanten Koeffizienten. Das zur Schwingungsgleichung gehörige System (26.8) ist ein lineares, homogenes Differentialgleichungssystem erster Ordnung mit konstanten Koeffizienten. Definition 26.11. Hängt die rechte Seite des Differentialgleichungssystems (26.6) nicht explizit von der unabhängigen Variablen x ab, so heißt das System autonom. Es hat dann die Gestalt y (m) = f (y, y 0 , . . . , y (m−1) ). 26.3. ELEMENTARE LÖSUNGSMETHODEN FÜR DGL 1. ORDNUNG 181 Die Schwingungsgleichung (26.2) ist eine autonome Differentialgleichung zweiter Ordnung, die Gleichung des elektrischen Schwingkreises ist nicht autonom (falls die äußere Spannung U (t) nicht identisch Null ist). Bemerkung 26.12. Kommt auf der rechten Seite von (26.6) y, y 0 , . . . , y (m−1) nicht vor, gilt also y (m) = f (x), so liegt eigentlich keine Differentialgleichung vor, sondern das Problem, die Funktion f m mal zu integrieren. Eine Differentialgleichung zu lösen ist — grob gesprochen — eine Stufe schwieriger, als ein unbestimmtes Integral anzugeben. Man betrachtet daher eine Differentialgleichung als gelöst, wenn man sie auf ein Gleichungssystem oder auf ein unbestimmtes Integral zurückgeführt hat (auch wenn man diese Ersatzaufgaben nicht explizit lösen 2 kann). 26.3 Elementare Lösungsmethoden für Differentialgleichungen 1. Ordnung In diesem Abschnitt 26.3 sollen einige Klassen von Differentialgleichungen erster Ordnung behandelt werden, für die Methoden zur geschlossenen Integration existieren. Definition 26.13. Eine Differentialgleichung erster Ordnung heißt separierbar, wenn man sie (direkt oder nach einer Substitution) mit stetigen Funktionen f und g schreiben kann als y 0 = f (x) · g(y). (26.9) Separierbare Differentialgleichungen erster Ordnung lassen sich durch einmalige Integration lösen. Gilt g(y0 ) = 0, so ist y(x) ≡ y0 eine Lösung von (26.9). Gilt im betrachteten Intervall g(y) 6= 0, so kann man (26.9) durch g(y) dividieren und hat mit y0 = f (x) g(y) die Variablen getrennt. Integriert man die beiden Funktionen von x links und rechts in der Gleichung, so erhält man unter Verwendung der Substitutionsregel Z Z Z 1 dy dy dx = = f (x) dx. g(y) dx g(y) 182 KAPITEL 26. GEW. DIFFERENTIALGLEICHUNGEN, EINFÜHRUNG Beispiel 26.14. In einer Lösung reagieren zwei Stoffe A und B miteinander. Das Ergebnis ist ein Stoff C. Ist die Reaktionsgeschwindigkeit Ċ proportional zu den Konzentrationen von A und B und wird zur Bildung von C der Anteil αC von A und βC von B benötigt mit α + β = 1, so erhält man die Gleichung Ċ = γ(A − αC)(B − βC). (26.10) (26.10) besitzt zwei konstante Lösungen C(t) ≡ A α und C(t) ≡ B , β für die die rechte Seite 0 wird. Ferner gilt mit a= α αB − βA und b = − β αB − βA wegen 1 a b = + (A − αC)(B − βC) A − αC B − βC mit einer Integrationskonstanten D Z 1 dC (−α ln |A − αC| + β ln |B − βC|) = αB − βA (A − αC)(B − βC) = d.h. Z γ dt = γt + D, (B − βC(t))β = C0 eγ(αB−βA)t α (A − αC(t)) mit der neuen Integrationskonstanten C0 = ±eD(αB−βA) , die sich aus der Anfangs2 konzentration C(0) errechnen läßt. Die folgende Klasse von Differentialgleichungen ist separierbar. Definition 26.15. Es sei f eine stetige Funktion. Dann heißt y0 = f y x (26.11) eine homogene Differentialgleichung. Die rechte Seite einer homogenen Differentialgleichung ist eine homogene Funktion vom Grade 0 (d.h. f (λz) = f (z) für alle z aus dem Definitionsbereich von f und alle λ 6= 0). Dies erklärt den Namen. Man beachte den Unterschied zur homogenen linearen Differentialgleichung. 26.3. ELEMENTARE LÖSUNGSMETHODEN FÜR DGL 1. ORDNUNG 183 y erhält man x Mit der Variablensubstitution z = xy 0 − y 1 z = = (f (z) − z), 2 x x 0 und diese ist offenbar separierbar. Beispiel 26.16. y2 y + −1 x2 x y geht mit der Variablentransformation z = über in x y0 = z0 = 1 1 2 ((z + z − 1) − z) = (z 2 − 1). x x Durch Trennung der Variablen erhält man −Artanh z = Z Z dz dx = = ln x + C, 2 z −1 x und wegen 1 1+z Artanh z = ln 2 1−z erhält man nach kurzer Rechnung die Lösung c − x2 , y(x) = x · c + x2 c ∈ IR. 2 Auch Lineare Differentialgleichungen y 0 = a(x)y + b(x). (26.12) können elementar gelöst werden. Wir betrachten zunächst die zugehörige homogene Differentialgleichung y 0 = a(x)y. Diese kann man durch Trennung der Variablen lösen, denn es ist x ln |y(x)| = d.h. Z dy Z = a(t) dt + ln |C|, y Zx y(x) = C · exp a(t) dt , C ∈ IR, 184 KAPITEL 26. GEW. DIFFERENTIALGLEICHUNGEN, EINFÜHRUNG wobei wie auch im folgenden Rx . . . bedeutet, daß der Integrand von einer geeigneten unteren Grenze bis x integriert wird. Zur Lösung der inhomogenen Gleichung ersetzen wir die Integrationskonstante C in der allgemeinen Lösung der homogenen Gleichung durch eine Funktion, machen also den Ansatz Zx y(x) = C(x) · exp a(t) dt . x0 Dann gilt 0 Zx 0 y (x) = C (x) · exp Zx a(t) dt + C(x) · exp x0 a(t) dt · a(x). x0 Einsetzen in (26.12) liefert 0 C (x) · exp Zx a(t) dt = b(x), x0 woraus man durch Integration C(x) = Zx b(t) exp − Zt a(τ ) dτ dt + c erhält. Damit ist die allgemeine Lösung von (26.12) y(x) = Zx b(t) exp − Zt Zx a(τ ) dτ dt · exp Zx a(t) dt + c · exp a(t) dt =: yp (x) + c · yh (x). Der obige Ansatz heißt Variation der Konstanten. Bemerkung 26.17. c · yh (x) ist die allgemeine Lösung der homogenen Differentialgleichung. Die allgemeine Lösung der inhomogenen Differentialgleichung erhält man also als Summe einer speziellen (partikulären) Lösung yp der Gleichung und der allgemeinen Lösung der zugehörigen homogenen Gleichung (vgl. Kapitel ?? über 2 lineare Gleichungssysteme). Beispiel 26.18. y 0 = 3y + sin 2x Die Lösung der homogenen Gleichung ist yh = C exp Zx 3 dt = C e3x , C ∈ IR. (26.13) 26.3. ELEMENTARE LÖSUNGSMETHODEN FÜR DGL 1. ORDNUNG 185 Wir variieren die Konstante, setzen also an y(x) = C(x) e3x . Dann gilt notwendig C 0 (x) e3x = sin 2x, d.h. C(x) = Zx sin 2t · e−3t dt. Dieses Integral kann — durch zweimalige partielle Integration ziemlich umständlich — berechnet werden, und man erhält dann nach dem Einsetzen die Lösung von (26.13). Um eine partikuläre Lösung zu erhalten, können wir hier einfach ansetzen yp (x) = α · sin 2x + β · cos 2x. Einsetzen in (26.13) liefert yp0 (x) = 2α cos 2x − 2β sin 2x = 3α sin 2x + 3β cos 2x + sin 2x = 3yp + sin 2x, und diese Gleichung ist genau dann für alle x erfüllt, wenn 3 2 3α + 2β = −1, 2α − 3β = 0 ⇐⇒ α = − , β = − . 13 13 Damit erhält man als allgemeine Lösung 3 2 y(x) = yp (x) + c · yh (x) = − sin 2x − cos 2x + c · e3x . 13 13 2 Bemerkung 26.19. Ist allgemein eine lineare Differentialgleichung (auch höherer Ordnung) mit konstanten Koeffizienten gegeben, so ist der folgende Ansatz für eine partikuläre Lösung sinnvoll. Ist die Inhomogenität b(x) ein Polynom, so wähle man yp als Polynom von demselben Grad wie b. Ist b(x) eine periodische Funktion b(x) = α · sin λx + β · cos λx, α, β ∈ IR so wähle man als Ansatz yp (x) = A · sin λx + B · cos λx, A, B ∈ IR. Beispiel 26.18. zeigt, daß dieser gemischte Ansatz auch dann erforderlich, wenn die rechte Seite b(x) = α · sin λx oder b(x) = β · cos λx ist. Ist die Inhomogenität eine Exponentialfunktion b(x) = c · eλx , so wähle man yp ebenfalls als Exponentialfunktion, d.h. yp (x) = C · eλx . 2 186 KAPITEL 26. GEW. DIFFERENTIALGLEICHUNGEN, EINFÜHRUNG Beispiel 26.20. Der Ansatz muß nicht notwendig zum Ziel führen. Wir betrachten die Differentialgleichung y 0 = 3y + e3x . Dann erhält man aus dem Ansatz yp (x) = C e3x für eine partikuläre Lösung den Widerspruch yp0 (x) = 3C e3x = 3yp + e3x = 3Ce3x + e3x , d.h. e3x = 0. Die Variation der Konstanten liefert C 0 (x) e3x = e3x ⇒ C 0 (x) ≡ 1 ⇒ C(x) = x. Da wieder yh (x) = C e3x die allgemeine Lösung der homogenen Differentialgleichung ist, ist die allgemeine Lösung der inhomogenen Gleichung y(x) = x e3x + C e3x . 2 Definition 26.21. Es seien a und b stetige Funktionen und α ∈ IR \ {1}. Dann heißt y 0 = a(x)y + b(x)y α (26.14) Bernoullische Differentialgleichung. Mit der Variablentransformation z := y 1−α geht (26.14) über in z 0 = (1 − α) a(x)z + (1 − α) b(x), also in eine lineare Differentialgleichung, die man elementar lösen kann. Definition 26.22. Es seien a, b und c stetige Funktionen. Dann heißt y 0 = a(x) + b(x)y + c(x)y 2 . (26.15) Riccatische Differentialgleichung. Es gibt kein allgemein brauchbares Verfahren, um die Riccatische Differentialgleichung elementar zu lösen. Ist aber eine partikuläre Lösung yp bekannt, so erhält man mit der Substitution z = y − yp die äquivalente Differentialgleichung z 0 = (b(x) + 2c(x)yp (x))z + c(x)z 2 , also eine Bernoullische Differentialgleichung. 26.3. ELEMENTARE LÖSUNGSMETHODEN FÜR DGL 1. ORDNUNG 187 Beispiel 26.23. (vgl. Beispiel 26.16.) y 0 = −1 + y y2 + x x2 (26.16) ist eine Riccatische Differentialgleichung mit der partikulären Lösung yp (x) = x. Die Substitution z := y − x führt auf die Bernoullische Differentialgleichung z0 = 1 3 · z + 2 · z 2 mit α = 2. x x Die weitere Substitution u := z 1−α = z −1 führt auf die lineare Differentialgleichung 3 1 u0 = − · u − 2 . x x 1 und die homogene GleiDiese besitzt offenbar die partikuläre Lösung up (x) = − 2x 3 c chung u0 = − · u besitzt die allgemeine Lösung uh (x) = 3 , also folgt x x c − x2 u(x) = − . 2x3 Durch Rücksubstitution erhält man z(x) = 2x3 1 = u(x) c − x2 und c + x2 . c − x2 Insbesondere enthält diese allgemeine Lösung für c → ∞ die partikuläre Lösung y(x) = z(x) + x = x · yp (x) = x. Die in Beispiel 26.16. angegebene Lösung erhält man, indem man c durch 2 −c ersetzt. Definition 26.24. Eine Differentialgleichung p(x, y) + q(x, y) y 0 = 0 heißt exakt, wenn das Vektorfeld u(x, y) := p(x, y) q(x, y) ein Potential besitzt, wenn also eine C 1 -Funktion U (x, y) mit ∂U =p ∂x existiert. und ∂U =q ∂y (26.17) 188 KAPITEL 26. GEW. DIFFERENTIALGLEICHUNGEN, EINFÜHRUNG Ist die Differentialgleichung (26.17) exakt, so kann man sie schreiben als 0= ∂U ∂U d (x, y(x)) + (x, y(x)) y 0 (x) = U (x, y(x)), ∂x ∂y dx und die Lösungen von (26.17) erfüllen die Gleichung U (x, y(x)) = C, C ∈ IR. (26.18) Sind die Funktionen p und q stetig differenzierbar und ist der betrachtete (x, y)Bereich B einfach zusammenhängend, so ist nach Kapitel 25 notwendig und hinreichend für die Existenz des Potentials U die Integrabilitätsbedingung ∂q ∂p (x, y) = (x, y) für alle ∂x ∂y x ∈ B. y (26.19) Das Potential U kann dann als Kurvenintegral U (x, y) = Z c p(s, t) q(s, t) d(s, t) berechnet werden, wobei die Kurve c in B verläuft und einen festen Punkt x y x0 y0 mit verbindet. In vielen Fällen kann man c parallel zu den Achsen wählen und erhält U (x, y) = Zx p(s, y0 ) ds + x0 Zy q(x, t) dt. y0 Beispiel 26.25. (1 + y 2 − 2xy) + (2xy − x2 ) y 0 = 0 (26.20) ist wegen ∂ ∂ (1 + y 2 − 2xy) = 2y − 2x = (2xy − x2 ), ∂y ∂x eine exakte Differentialgleichung mit dem Potential U (x, y) = Zx 0 ds + Zy (2xt − x2 ) dt = x − x2 y + xy 2 . 0 Jedes y(x) mit x − x2 y(x) + xy 2 (x) = C, d.h. x y(x) = ± 2 ist Lösung von (26.20). s x2 C + − 1, C ∈ IR, 4 x 2 26.3. ELEMENTARE LÖSUNGSMETHODEN FÜR DGL 1. ORDNUNG 189 Ist die Differentialgleichung (26.17) nicht exakt, so kann man unter Umständen eine von 0 verschiedene Funktion M (x, y) finden, so daß die multiplizierte Differentialgleichung M (x, y) p(x, y) + M (x, y) q(x, y) y 0 = 0. (26.21) exakt ist. M heißt dann integrierender Faktor von (26.17). Da (26.17) und (26.21) dieselben Lösungen haben, ist (26.17) gelöst, wenn ein integrierender Faktor gefunden ist. Hierfür erhalten wir das folgende Kriterium. M ist genau dann integrierender Faktor, wenn ∂ ∂ (M q) = (M p), ∂x ∂y d.h. ∂ ∂ q = 0. (26.22) ∂y ∂x ∂y ∂x (26.22) ist eine partielle Differentialgleichung für M . Partielle Differentialgleichungen M p− ∂ M q+M ∂ p− sind i.a. noch schwerer zu behandeln als gewöhnliche Differentialgleichungen. Da es aber genügt, eine partikuläre Lösung von (26.22) zu finden, ist dieses Kriterium dennoch nützlich. Insbesondere ist dies dann der Fall, wenn es integrierende Faktoren von einfacher Gestalt gibt. Man kann M (x, y) =: µ(x) als Funktion nur von x wählen, falls ∂ −µ0 (x) q(x, y) + µ(x) ∂y ∂ q(x, y) = 0, ∂x p(x, y) − d.h. falls q(x, y)−1 ∂ ∂y p(x, y) − ∂ q(x, y) =: φ(x) ∂x Zx nicht von y abhängt. In diesem Fall ist µ(x) = exp φ(t) dt wählbar. Genauso kann man M (x, y) = µ(y) wählen, falls p(x, y)−1 ∂ ∂x q(x, y) − ∂ p(x, y) =: ψ(y) ∂y y Z nicht von x abhängt. In diesem Fall ist M (x, y) = µ(y) = exp grierender Faktor. Schließlich ist (26.22) für ein M (x, y) = µ(x + y) erfüllt, falls ∂ p(x, y) ∂y − ∂ q(x, y) ∂x q(x, y) − p(x, y) = χ(x + y) ψ(t) dt ein inte- 190 KAPITEL 26. GEW. DIFFERENTIALGLEICHUNGEN, EINFÜHRUNG x+y Z eine Funktion von x + y ist. In diesem Fall kann man M (x, y) = exp χ(t) dt wählen. Beispiel 26.26. p(x, y) + q(x, y) y 0 = (1 + x2 + xy) + (1 + x + y) y 0 = 0 (26.23) ist wegen ∂ ∂ p(x, y) = x 6= q(x, y) = 1 ∂y ∂x nicht exakt. Wegen (q − p)−1 ∂p ∂y − ∂q 1 =− =: χ(x + y) ∂x x+y ist µ(x + y) := exp − x+y Z 1 ds 1 = s x+y ein integrierender Faktor. Multipliziert man hiermit (26.23), so erhält man die exakte Differentialgleichung p̃(x, y) + q̃(x, y) y 0 = 1 1 0 +x + 1+ y = 0. x+y x+y Es gilt U (x, y) = Zx p̃(s, 0) ds + 1 = Zx 1 Zy q̃(x, t) dt 0 Zy 1 1 dt + s ds + 1+ s x+t 0 1 1 = ln |x| + x2 − + y + ln |x + y| − ln |x|, 2 2 und daher erfüllen die Lösungen von (26.23) die Gleichung 1 ln |x + y(x)| + y(x) + x2 = C. 2 2 26.4. ELEMENTARE LÖSUNGSMETHODEN FÜR DGL 2. ORDNUNG 26.4 191 Elementare Lösungsmethoden für Differentialgleichungen 2. Ordnung Wir betrachten in diesem Abschnitt 26.4 einige Typen nichtlinearer Differentialgleichungen 2. Ordnung, die elementar lösbar sind. Hängt die rechte Seite der Differentialgleichung nicht explizit von y ab, y 00 = f (x, y 0 ), so liegt eine Differentialgleichung 1. Ordnung für z := y 0 vor. Löst man diese (etwa mit den Methoden aus Abschnitt 26.3), so erhält man y(x) = Zx z(t) dt. Beispiel 26.27. Die Lage eines in zwei Punkten befestigten Seils wird beschrieben durch die Differentialgleichung der Kettenlinie q y 00 = a 1 + (y 0 )2 . z = y 0 erfüllt die Differentialglei√ chung z 0 = a 1 + z 2 mit der Lösung (Trennung der Variablen) Z √ Abbildung 26.5 Z dz = Arsinh z = a dx = ax + C1 , 1 + z2 d.h. z(x) = sinh(ax + C1 ), und hieraus erhält man y(x) = Zx z(t) dt = 1 cosh(ax + C1 ) + C2 . a Die Integrationskonstanten C1 und C2 muß man noch aus den Randbedingungen (Aufhängung des Seils) bestimmen. Die Lösung y(x) heißt Kettenlinie. 2 192 KAPITEL 26. GEW. DIFFERENTIALGLEICHUNGEN, EINFÜHRUNG Wir betrachten nun den Fall, daß die rechte Seite nicht von der unabhängigen Variable x explizit abhängt, d.h. y 00 = f (y, y 0 ). Wir nehmen an, daß die Lösung y = y(x) in einem Bereich streng monoton ist. Dann existiert die Umkehrabbildung x = x(y), und hierfür gilt dx 1 = 0 . dy y (x(y)) Wir setzen p(y) := y 0 (x(y)). Damit gilt dp dx 1 1 = y 00 (x(y)) · = y 00 (x(y)) 0 = f (y, p), dy dy y (x(y)) p und dies ist eine Differentialgleichung erster Ordnung für p. Hat man diese gelöst, so erhält man durch Integration von x(y) = Z dx 1 = zunächst dy p(y) dy , und die inverse Funktion hiervon ist die gesuchte Lösung. p(y) Beispiel 26.28. Mit p(y) := y 0 (x(y)) geht die Differentialgleichung y 00 = y 02 y über in die Differentialgleichung dp p = dy y mit der Lösung p(y) = cy. Daher folgt x(y) = Zy 1 dy = ln(cy) + d, p(y) c und durch den Übergang zur Umkehrabbildung erhält man die Lösung y(x) = 1 exp(cx − d) = αeβx , α, β ∈ IR. c 2 Wir betrachten schließlich den Fall, daß die rechte Seite nur eine Funktion von y ist, d.h. y 00 = f (y). Durch Multiplikation mit y 0 erhält man y 00 y 0 = 1 d 0 2 (y (x) ) = f (y) y 0 . 2 dx 26.4. ELEMENTARE LÖSUNGSMETHODEN FÜR DGL 2. ORDNUNG 193 Ist also F eine Stammfunktion von f , so folgt durch Integration q 1 0 2 (y ) = F (y) + C, d.h. y 0 = ± 2F (y) + C. 2 Nimmt man wieder an, daß die Funktion y(x) in einem Bereich invertierbar ist, so erhält man wie eben dx 1 = ±q dy 2F (y) + C und hieraus x(y) = ± dy Z q . 2F (y) + C Beispiel 26.29. Wir betrachten die Gleichung des ungedämpften mathematischen Pendels g φ̈ = − sin φ. ` (26.24) Dann erhält man wie oben 1 2 g φ̇ = cos φ + C, 2 ` 2 oder durch Multiplikation mit m` 1 m(`φ̇)2 + mg`(1 − cos φ) = mg` + m`2 C = E. 2 1 m(`φ̇)2 die kinetische Energie und mg`(1 − cos φ) die potentielle Energie 2 des Pendels. Die erste Integration der Bewegungsgleichung liefert also gerade den Es ist Energieerhaltungssatz. Wir verzichten auf die weitere Lösung der nichtlinearen Differentialgleichung (26.24). Eine ausführliche Diskussion für den Fall E < 2mg` (in dem nur Schwingungen ausgeführt werden; sonst überschlägt sich das Pendel) findet man in Burg, Haf, Wille III, S. 88 ff. 2 Kapitel 27 Anfangswertaufgaben Allen Differentialgleichungen, die wir diskutiert haben, war gemeinsam, daß sie nicht eine Lösung, sondern eine ganze Schar von Lösungen hatten. Dies kann man folgendermaßen plausibel machen: Eine Differentialgleichung y 0 = f (x, y) beschreibt oft die zeitliche Veränderung eines technischen Systems. Die Variable x entspricht der Zeit, y(x) gibt den Zustand des Systems an. Dieser wird aber nicht nur durch die Bewegungsgleichung festgelegt, sondern es muß zusätzlich der Zustand zu einem bestimmten Anfangszeitpunkt x0 bekannt sein. Technische Probleme führen daher häufig nicht auf die Aufgabe, die allgemeine Lösung einer Differentialgleichung zu bestimmen, sondern auf eine Anfangswertaufgabe y 0 = f (x, y), y(x0 ) = y 0 . (27.1) Dabei ist y die gesuchte Funktion und y(x0 ) = y 0 ∈ IRn der vorgegebene Anfangswert. Wir untersuchen in diesem Kapitel für die Anfangswertaufgabe die Existenz und Eindeutigkeit von Lösungen sowie die Abhängigkeit der Lösungen von den Anfangswerten. 27.1 Beispiele Wir beleuchten die Existenz- und Eindeutigkeitsfragen zunächst mit einigen Beispielen. Man kann Beispiele für Anfangswertaufgaben konstruieren, die nicht einmal lokal lösbar sind, für die also in keiner Umgebung x0 − ε < x < x0 + ε des Anfangspunktes 27.1. BEISPIELE 195 x0 eine Lösung existiert. Diese sind aber nicht von praktischem Interesse, da die lokale Existenz für stetiges f garantiert ist (Satz 27.19. von Peano). Die Stetigkeit von f genügt nicht, um die Eindeutigkeit der Lösung zu sichern: Beispiel 27.1. Die Anfangswertaufgabe y0 = q |y|, y(x0 ) = 0 besitzt offenbar die Lösung y(x) ≡ 0. Ferner erhält man durch Trennung der Variablen die Lösung y(x) = 1 (x 4 1 − 4 (x − x0 )2 2 − x0 ) für x ≥ x0 für x ≤ x0 . Also ist die Anfangswertaufgabe nicht eindeutig lösbar. Es gibt sogar unendlich viele Lösungen, denn für alle x1 , x2 ∈ IR mit x1 < x0 < x2 ist y(x) = − 41 (x − x1 )2 für x ≤ x1 für x ≥ x2 0 1 (x 4 2 − x2 ) für x1 ≤ x ≤ x2 eine Lösung. Abbildung 27.1 2 Auch wenn f stetig auf IRn+1 ist, braucht eine Lösung nicht für alle x ∈ IR zu existieren: Beispiel 27.2. Die Anfangswertaufgabe y 0 = y 2 , y(0) = y0 besitzt für y0 = 0 die überall definierte Lösung y(x) ≡ 0. Für y0 6= 0 ist y(x) = 1 x0 − x + 1/y0 die eindeutige Lösung, die für y0 < 0 nur in dem Intervall (x0 + y0 > 0 nur in (−∞, x0 + 1 ) definiert ist. y0 1 , ∞) und für y0 2 196 KAPITEL 27. ANFANGSWERTAUFGABEN Beispiel 27.3. Die Anfangswertaufgabe y 0 = y 2 + 1, y(0) = 0 hat die eindeutige Lösung y(x) = tan x, die nur in dem beschränkten Intervall π π − < x < erklärt ist. 2 2 2 27.2 Existenz und Eindeutigkeit Um die Existenz- oder Eindeutigkeitsfrage zu beantworten, formen wir die Anfangswertaufgabe um: Satz 27.4. Es sei f : IRn+1 ⊃ Q := {(x, y) : |x − x0 | ≤ a, ky − y 0 k ≤ b} → IRn stetig und y : I := [x0 − a, x0 + a] → IRn mit (x, y(x)) ∈ Q für alle x ∈ I. Dann sind äquivalent (i) y ist in I stetig differenzierbar und löst die Anfangswertaufgabe y 0 (x) = f (x, y(x)) für alle x ∈ I, y(x0 ) = y 0 (ii) y ist in I stetig und erfüllt die Integralgleichung 0 y(x) = y + Zx f (t, y(t)) dt, x ∈ I. x0 Beweis: Gilt (i), so erhält man durch Integration der Differentialgleichung von x0 bis x y(x) − y(x0 ) = Zx 0 y (t) dt = x0 Zx f (t, y(t)) dt. x0 Ist y stetig auf I, so ist x 7→ f (x, y(x)) stetig auf I, und daher ist 0 y(x) = y + Zx f (t, y(t)) dt x0 stetig differenzierbar in I mit der Ableitung y 0 (x) = f (x, y(x)), x ∈ I. Ferner gilt y(x0 ) = y 0 . 27.2. EXISTENZ UND EINDEUTIGKEIT 197 Wegen Satz 27.4. genügt es, die Integralgleichung Zx 0 y(x) = y + f (t, y(t)) dt (27.2) x0 auf stetige Lösungen zu untersuchen. Wir haben bereits gesehen, daß es nicht genügt, f als stetig vorauszusetzen, um die Eindeutigkeit der Lösung von (27.1) zu sichern. Zusätzlich werden wir die folgende Bedingung betrachten. Definition 27.5. Die Funktion f : IR × IRn ⊃ D → IRn erfüllt eine Lipschitz Bedingung bzgl. y in der Menge D, wenn es eine Konstante L, die Lipschitz Konstante, gibt mit kf (x, y) − f (x, z)k ≤ Lky − zk für alle (x, y), (x, z) ∈ D. Bemerkung 27.6. Die Norm k · k in Definition 27.5. muß nicht spezifiziert werden. Erfüllt f nämlich eine Lipschitz Bedingung bzgl. einer Norm k · k, so auch bzgl. jeder anderen Norm, da alle Normen auf dem IRn äquivalent sind. 2 Beispiel 27.7. Es sei D ⊂ IRn+1 eine Menge, für die alle x-Schnitte Dx := {y ∈ IRn : (x, y) ∈ D} ⊂ IRn konvex sind, und es sei f : D → IRn stetig und partiell differenzierbar bzgl. aller Komponenten yj von y. Sind die partiellen Ableitungen ∂fi (i, j = 1, . . . , n) beschränkt auf D, so erfüllt f eine Lipschitz Bedingung bzgl. y ∂yj in D, denn nach dem Mittelwertsatz gilt für alle (x, y), (x, z) ∈ D ∂ kf (x, y) − f (x, z)k ≤ sup { ∂y f (x, y + t(z − y)) : t ∈ [0, 1]} · ky − zk ∂ ≤ sup { f (x, w) : (x, w) ∈ B} · ky − zk =: Lky − zk. ∂w 2 Beispiel 27.8. Nach Beispiel 27.7. erfüllt f (x, y) := x2 + y 2 eine Lipschitz Bedingung auf jedem Rechteck Q := {(x, y)T ∈ IR2 : |x − x0 | ≤ a, |y − y0 | ≤ b} mit der Lipschitz Konstante L = max{|2y| : y ∈ [y0 − b, y0 + b]} = 2 max{|y0 − b|, |y0 + b|}. Mit derselben Konstante erfüllt f auch eine Lipschitz Bedingung auf dem Streifen IR × [y0 − b, y0 + b]. f erfüllt aber keine Lipschitz Bedingung auf dem in y-Richtung unbeschränkten Streifen [x0 − a, x0 + a] × IR. 2 198 KAPITEL 27. ANFANGSWERTAUFGABEN Beispiel 27.9. Die Funktion f (x, y) := |y| erfüllt eine Lipschitz Bedingung in IR2 , denn es gilt |y| − |z| f (x, y) − f (x, z) = ≤ 1. y−z y−z Es gibt also Funktionen, die bzgl. y einer Lipschitz Bedingung genügen aber nicht 2 partiell differenzierbar bzgl. y sind. q Beispiel 27.10. f (x, y) := |y| erfüllt keine Lipschitz Bedingung bzgl. y in Q := {(x, y)T ∈ IR2 : |x − x0 | ≤ a, |y| ≤ b}, denn für eine beliebige Folge {yn } mit lim yn = 0 ist die Menge n→∞ n f (x, y ) − f (x, 0) o 1 n : n ∈ IN = q yn − 0 |yn | : n ∈ IN 2 unbeschränkt. Satz 27.11. (Picard, Lindelöf; globale Version) Die stetige Funktion f : S → IRn , S := {(x, y) : a ≤ x ≤ b, y ∈ IRn }, erfülle in dem Streifen S eine Lipschitz Bedingung für alle (x, y), (x, z) ∈ [a, b] × IRn . kf (x, y) − f (x, z)k ≤ ky − zk (27.3) Dann besitzt die Anfangswertaufgabe y 0 = f (x, y), y(x0 ) = y 0 für alle x0 ∈ [a, b] und alle y 0 ∈ IRn eine eindeutige Lösung, die für alle x ∈ [a, b] definiert ist. Beweis: Nach Satz 27.4. genügt es, die Existenz einer stetigen Lösung der Integralgleichung 0 y(x) = y + Zx f (t, y(t)) dt, x ∈ [a, b], (27.4) x0 nachzuweisen und zu zeigen, daß diese eindeutig ist. Ähnlich wie im Beweis des Fixpunktsatzes für kontrahierende Abbildungen betrachten wir hierzu die Iteration 0 y k+1 (x) = y + Zx x0 f (t, y k (t)) dt, y 0 (x) :≡ y 0 , 27.2. EXISTENZ UND EINDEUTIGKEIT 199 und zeigen, daß die Folge {y k } gleichmäßig in [a, b] konvergiert. Sie besitzt also eine Grenzfunktion y : [a, b] → IRn , die mit den Funktionen y k stetig ist, und für die wir nachweisen, daß sie die Integralgleichung (27.4) löst. (y k : [a, b] → IRn bezeichnet dabei eine Vektorfunktion, keine Komponente einer Vektorfunktion). Um zu zeigen, daß die Folge {y k } gleichmäßig konvergiert, beweisen wir zunächst durch vollständige Induktion ky k (x) − y k−1 (x)k ≤ M Lk−1 |x − x0 |k , k! M := max kf (x, y 0 )k. (27.5) a≤x≤b Für k = 1 ist (27.5) richtig, denn Zx Zx 0 ky 1 (x) − y k = f (t, y ) dt ≤ kf (x, y 0 )k dt ≤ M · |x − x0 |, 0 x0 x0 und aus der Richtigkeit für ein k ∈ IN folgt ky k+1 (x) − y k (x)k = Zx f (t, y k (t)) − f (t, y k−1 (t)) dt x0 Zx ≤ kf (t, y k (t)) − f (t, y k−1 (t))k dt x0 Zx ≤ L ky k (t) − y k−1 (t)k dt x0 x M Lk Z M Lk ≤ |t − x0 |k dt = |x − x0 |k+1 . k! x (k + 1)! 0 Mit (27.5) erhält man nun die gleichmäßige Konvergenz der Folge {y k (x)} in [a, b] aus dem Majorantenkriterium, denn es gilt y k (x) = y 0 + k X (y j (x) − y j−1 (x)), j=1 und mit ` := b − a folgt k X ky j (x) − y j−1 (x)k ≤ j=1 k X j=1 ≤ M Lj−1 |x − x0 |j j! k MX (`L)j M ≤ (exp(`L) − 1). L j=1 j! L Da alle y k stetig sind, ist auch der gleichmäßige Grenzwert y(x) = lim y k (x) k→∞ stetig. Wegen kf (x, y k (x)) − f (x, y(x))k ≤ Lky k (x) − y(x)k → 0 für k → ∞ 200 KAPITEL 27. ANFANGSWERTAUFGABEN konvergiert auch f (x, y k (x)) gegen f (x, y(x)) für alle x ∈ [a, b], und daher ist y(x) eine Lösung der Integralgleichung (27.4), die in [a, b] definiert ist. Die Eindeutigkeit der Lösung erhalten wir aus dem folgenden Lemma von Gronwall, das uns auch bei der Untersuchtung der Abhängigkeit von Lösungen von Anfangswerten gute Dienste leisten wird. Satz 27.12. (Lemma von Gronwall) Es sei φ : [a, b] → IR stetig, und es gelte für ein x0 ∈ [a, b] mit α, β ≥ 0 Zx 0 ≤ φ(x) ≤ α + β φ(t) dt für alle x ∈ [a, b]. x0 Dann gilt φ(x) ≤ αeβ|x−x0 | für alle x ∈ [a, b]. Beweis: Es sei zunächst x > x0 . Wir definieren −β(x−x0 ) ψ(x) := e α+β Zx φ(t) dt . x0 Dann ist ψ differenzierbar in (a, b) mit 0 −β(x−x0 ) ψ (x) = e n −β α + β Zx o φ(t) dt + βφ(x) ≤ 0 x0 für alle x ∈ (x0 , b). ψ ist also monoton fallend, d.h. es gilt ψ(x) ≤ ψ(x0 ) = α für alle x ∈ [x0 , b], und daher gilt φ(x) ≤ α + β Zx φ(t) dt = eβ(x−x0 ) ψ(x) ≤ α eβ(x0 −x) . x0 Für x < x0 können wir die Behauptung genauso mit Hilfe der Funktion β(x−x0 ) ψ(x) := e Zx α−β φ(t) dt x0 zeigen. Die Eindeutigkeitsaussage des Satzes von Picard und Lindelöf erhält man nun so: Gibt es neben der bereits konstruierten eine weitere Lösung ỹ von (27.4), so gilt mit φ(x) := ky(x) − ỹ(x)k φ(x) = Zx f (t, y(t)) − f (t, ỹ(t)) dt ≤ x0 Zx kf (t, y(t)) − f (t, ỹ(t))k dt x0 Zx Zx ≤ L ky(t) − ỹ(t)k dt = L φ(t) dt, x0 x0 27.2. EXISTENZ UND EINDEUTIGKEIT 201 und aus dem Lemma von Gronwall folgt mit α = 0 und β = l φ(x) ≤ 0, d.h. y(x) = ỹ(x) für alle x ∈ [a, b]. Bemerkung 27.13. Im Prinzip wird durch den Beweis ein Verfahren zur Lösung von Anfangswertaufgaben mitgeliefert, die sukzessive Approximation. Das Verfahren ist i.a. nicht zu empfehlen, da die nötigen Integrationen sehr schnell sehr kompliziert (oder gar nicht elementar ausführbar) werden. 2 Beispiel 27.14. 0 y = y, y(0) = 1 ⇐⇒ y(x) = 1 + Zx y(t) dt. 0 Es gilt y0 (x) ≡ 1 y1 (x) = 1 + y2 (x) = 1 + Zx 0 Zx y0 (t) dt = 1 + y1 (t) dt = 1 + 0 Zx 0 Zx 0 und durch Induktion yk = k X xj j=0 j! → ex dt = 1 + x 1 (1 + t) dt = 1 + x + x2 2 für k → ∞. 2 Beispiel 27.15. 0 2 y = y , y(0) = 1 ⇐⇒ y(x) = 1 + Zx y 2 (t) dt. 0 Es gilt y0 (x) = 1 y1 (x) = 1 + y2 (x) = 1 + Zx 0 Zx 0 y3 (x) = 1 + Zx 0 dt = 1 + x 1 (1 + t)2 dt = 1 + x + x2 + x3 3 1 (1 + t + t2 + t3 ) dt 3 2 1 1 1 1 + x + x2 + x3 + x4 + x5 + x6 + x7 . 3 3 9 63 202 KAPITEL 27. ANFANGSWERTAUFGABEN Die Lösung der Anfangswertaufgabe besitzt die Taylor Entwicklung ∞ X 1 = xn , −1 < x < 1. y(x) = 1 − x n=0 2 Als Folgerung aus dem Satz von Picard und Lindelöf erhält man das folgende Existenz- und Eindeutigkeitsresultat für lineare Differentialgleichungssysteme. Satz 27.16. Die lineare Anfangswertaufgabe y 0 = A(x) y + b(x), y(x0 ) = y 0 mit stetigen Funktionen A : [a, b] → IR(n,n) , b : [a, b] → IRn bzw. A : IR → IR(n,n) , b : IR → IRn besitzt eine eindeutige Lösung, die auf ganz [a, b] bzw. IR definiert ist. Beweis: Mit f (x, y) := A(x)y + b(x) ist wegen kf (x, y) − f (x, z)k = kA(x)(y − z)k ≤ kA(x)k · ky − zk die Voraussetzung von Satz 27.11. für den Streifen [a, b] × IRn bzw. für jeden Streifen [α, β] × IRn ⊂ IR × IRn erfüllt. Die globale Lipschitz Bedingung (27.3) ist außerordentlich einschränkend. Durch sie wird gefordert, daß die Funktion f bzgl. y höchstens linear wächst. Der folgende Satz zeigt, daß es genügt, die Lipschitz Bedingung auf einem beschränkten Quader zu fordern. Satz 27.17. (Picard, Lindelöf; lokale Version) Es sei Q := {(x, y) ∈ IRn+1 : |x − x0 | ≤ a, ky − y 0 k ≤ b}, sei f : Q → IRn stetig auf Q mit kf (x, y)k ≤ M für alle (x, y) ∈ Q, und es erfülle f eine Lipschitz Bedingung bzgl. y auf Q, d.h. kf (x, y) − f (x, z)k ≤ Lky − zk für alle (x, y), (x, z) ∈ Q. Dann besitzt die Anfangswertaufgabe y 0 = f (x, y), y(x0 ) = y 0 (27.6) eine eindeutige Lösung y(x), die (wenigstens) auf dem Intervall [x0 − α, x0 + α] b definiert ist, wobei α := min (a, ). M 27.2. EXISTENZ UND EINDEUTIGKEIT 203 Beweis: Wir setzen die Funktion f auf die Menge [x0 − a, x0 + a] × IRn durch f̃ (x, y) : = f (x, y) f (x, y 0 + , falls ky − y 0 k ≤ b b (y − y 0 )) , sonst ky − y 0 k fort und betrachten die Anfangswertaufgabe y 0 = f̃ (x, y), y(x0 ) = y 0 . (27.7) Da f̃ eine Lipschitz Bedingung auf [x0 − a, x0 + a] × IRn erfüllt, besitzt (27.7) eine Lösung ỹ(x), die auf [x0 − a, x0 + a] definiert ist. Für |x − x0 | ≤ α gilt Zx kỹ(x) − y k ≤ kf̃ (t, ỹ(t))k dt ≤ M · |x − x0 | ≤ M α ≤ b. 0 x0 Für |x − x0 | ≤ α gilt also (x, ỹ(x)) ∈ Q, und daher ist die Restriktion y(x) von ỹ(x) auf das Intervall |x − x0 | ≤ α eine Lösung von (27.6), die wiederum nach dem Lemma von Gronwall eindeutig ist. Bemerkung 27.18. Der Beweis zeigt, daß die Ein- schränkung des Intervalls [x0 −a, x0 +a] auf [x0 − α, x0 + α] erforderlich ist, da b man nur für |x − x0 | ≤ garantieM ren kann, daß die Lösung (x, y(x)) in Q verbleibt. Abbildung 27.2 2 Verzichtet man in Satz 27.17. auf die Lipschitz Bedingung für f , so erhält man (mit einem wesentlich komplizierteren Beweis) nur noch die Existenz einer Lösung, verliert aber die Eindeutigkeit. Satz 27.19. (Peano) Sei f : Q := {(x, y) ∈ IRn+1 : |x − x0 | ≤ a, ky − y 0 k ≤ b} → IRn stetig auf Q mit b kf (x, y)k ≤ M für alle (x, y) ∈ Q, und sei α = min a, . M 204 KAPITEL 27. ANFANGSWERTAUFGABEN Dann besitzt die Anfangswertaufgabe y 0 = f (x, y), y(x0 ) = y 0 eine Lösung, die in [x0 − α, x0 + α] definiert ist. Bemerkung 27.20. Die Eindeutigkeit kann nicht mehr garantiert werden, denn die Funktion f (x, y) = q |y| ist stetig auf IR2 , aber die Anfangswertaufgabe y 0 = q 2 |y|, y(0) = 0, ist nicht eindeutig lösbar. 27.3 Abhängigkeit von Anfangswerten und Parametern Wir diskutieren nun die Abhängigkeit der Lösung der Anfangswertaufgabe (27.1) von den Anfangswerten und von Parametern. Wir nehmen für diese Diskussion generell an, daß die Voraussetzungen des Satzes von Picard und Lindelöf auf einem Quader Q := {(x, y) : |x − x0 | ≤ a, ky − y 0 k ≤ b} erfüllt sind, so daß (27.1) eine eindeutige Lösung y(x; x0 , y 0 ) besitzt, die in einer Umgebung von x0 erklärt ist. Satz 27.21. Es seien die Voraussetzungen des Satzes von Picard und Lindelöf erfüllt, und es sei L die Lipschitz Konstante von f in Q. Dann gilt ky(x; x0 , y 0 ) − y(x; x0 , z 0 )k ≤ eL|x−x0 | ky 0 − z 0 k für alle z 0 ∈ IRn mit kz 0 − y 0 k ≤ b und alle x ∈ [x0 − α, x0 + α], für die ky(x; x0 , z 0 ) − y 0 k ≤ b gilt. Beweis: Aus der Gültigkeit von 0 0 y(x; x0 , z ) = z + Zx f (t, y(t; x0 , z 0 )) dt x0 folgt mit der Dreiecksungleichung ky(x; x0 , y 0 ) − y(x; x0 , z 0 )k Zx ≤ ky − z k + f (t, y(t; x0 , y 0 )) − f (t, y(t; x0 , z 0 )) dt 0 0 x0 Zx ≤ ky − z k + L ky(t; x0 , y 0 ) − y(t; x0 , z 0 )k dt, 0 0 x0 27.3. ABHÄNGIGKEIT VON ANFANGSWERTEN UND PARAMETERN 205 und aus dem Lemma von Gronwall (Satz 27.12.) folgt mit φ(x) := ky(x; x0 , y 0 ) − y(x; x0 , z 0 )k, α := ky 0 − z 0 k, β := L die Behauptung. Bemerkung 27.22. Die Abschätzung aus Satz 27.21. läßt sich nicht verbessern, denn für die Aufgabe y 0 = λy, y(x0 ) = y0 ∈ IR, gilt y(x; x0 , y0 ) = y0 exp(λ(x − x0 )) und mit L = |λ| |y(x; x0 , y0 ) − y(x; x0 , z0 )| = |y0 − z0 | exp(L|x − x0 |). 2 Wir betrachten nun Anfangswertaufgaben, bei denen die rechte Seite von einem Parameter λ ∈ IRm abhängt: y 0 = f (x, y, λ), y(x0 ) = y 0 , (27.8) und untersuchen die Abhängigkeit der Lösung von dem Parameter. Satz 27.23. Es sei f auf der Menge Q̃ : = {(x, y, λ) : |x − x0 | ≤ α, ky − y 0 k ≤ b, kλ − λ0 k ≤ c} stetig und genüge bzgl. y einer Lipschitz Bedingung. Wir nehmen an, daß α so klein gewählt ist, daß für jedes λ mit kλ − λ0 k ≤ c die eindeutige Lösung y(x; λ) der Anfangswertaufgabe (27.8) auf der Menge M : = {(x, λ) : |x − x0 | ≤ α, kλ − λ0 k ≤ c} definiert ist. Dann ist y stetig auf M . Beweis: Wir betrachten die Folge 0 0 y 0 (x) = y , y k (x) := y + Zx x0 der sukzessiven Approximation. f (t, y k−1 (t), λ) dt 206 KAPITEL 27. ANFANGSWERTAUFGABEN Dann ist jedes y k (x) = y k (x; λ) stetig auf M, und da die Konvergenz der y k gleichmäßig ist, ist auch die Grenzfunktion y(x; λ) stetig auf M . Es seien nun die Voraussetzungen von Satz 27.23. erfüllt, und es sei f sogar stetig differenzierbar auf Q̃. Dann sind wieder alle Elemente der auf M gleichmäßig konvergenten Folge y k (x; λ) stetig differenzierbar. Hieraus kann man aber nicht wie im Beweis von Satz 27.23. auf die Differenzierbarkeit der Grenzfunktion y(x; λ) schließen, da der gleichmäßige Grenzwert von differenzierbaren Funktionen i.a. nicht differenzierbar ist. Mit einem wesentlich aufwendigeren Beweis kann man das folgende Resultat zeigen (vgl. Knobloch, Kappel [19]): Satz 27.24. Es sei f stetig auf Q̃ und besitze stetige partielle Ableitungen erster Ordnung bzgl. der Komponenten von y und λ. Dann ist y(x; λ) stetig differenzierbar auf M. Darüberhinaus existieren alle gemischten zweiten partiellen Ableitungen bzgl. x und der Komponenten von λ, und diese sind stetig. Die Matrixfunktion Z(x; λ) : = ∂ y(x; λ) ist Lösung der Anfangswertaufgabe ∂λ ∂ ∂ f (x, y(x; λ), λ)Z(x; λ) + f (x, y(x; λ), λ), ∂y ∂λ Z(x0 ; λ) = 0. Z 0 (x; λ) = (27.9) Bemerkung 27.25. Beim Beweis der Existenz und Stetigkeit der Ableitung von y(x; λ) wird verwendet, daß Z(x; λ) die Differentialgleichung (27.9) löst. Daß dies notwendig ist, wird so klar: Da alle gemischten partiellen Ableitungen stetig sind, kann man nach dem Satz von H.A. Schwarz die Reihenfolge vertauschen und erhält für j = 1, . . . , m ∂ ∂ ∂ ∂ ∂ y(x; λ) = y(x; λ) = f (x, y(x; λ), λ) ∂x ∂λj ∂λj ∂x ∂λj ∂ ∂ ∂ = f (x, y(x; λ), λ) y(x; λ) + f (x, y(x; λ), λ). ∂y ∂λj ∂λj Wegen y(x0 , λ) = y 0 gilt ferner für j = 1, . . . , m ∂ y(x0 ; λ) = 0. ∂λj 2 27.3. ABHÄNGIGKEIT VON ANFANGSWERTEN UND PARAMETERN 207 Beispiel 27.26. Die Anfangswertaufgabe y 0 = αy + β, y(0) = 1, besitzt für α 6= 0 die Lösung ! β αx β y(x) = 1 + e − . α α Man rechnet leicht nach, daß die Ableitung ∂y β β 1 β 1 Z(x) = (x) = x(1 + )eαx − 2 eαx + 2 , eαx − ∂(α, β) α α α α α ! von y bzgl. des Parametervektors λ = (α, β)T die Anfangswertaufgabe Z0 = ∂f ∂f ·Z + = α · Z + (y, 1), ∂y ∂(α, β) Z(0) = (0, 0) 2 löst. Als Folgerung aus Satz 27.24. erhält man für die Abhängigkeit der Lösung von den Anfangswerten Korollar 27.27. Ist f : Q → IRn eine C 1 -Funktion, so hängt die Lösung y(x; x0 , y 0 ) der Anfangswertaufgabe y 0 = f (x, y), y(x0 ) = y 0 stetig differenzierbar von x0 und y 0 ab. Die Matrixfunktion Z(x) := Z 0 (x) = ∂ y(x; x0 , y 0 ) ist Lösung der Anfangswertaufgabe ∂y 0 ∂ f (x, y(x; x0 , y 0 )) Z(x), Z(x0 ) = E, ∂y (27.10) wobei E ∈ IR(n,n) die Einheitsmatrix bezeichnet. Die Funktion w(x) := w0 (x) = ∂ y(x; x0 , y 0 ) ist Lösung der Anfangswertaufgabe ∂x0 ∂ f (x, y(x; x0 , y 0 )) w(x), w(x0 ) = −f (x0 , y 0 ). ∂y (27.11) Beweis: Die Funktion v(t) := v(t; x0 , y 0 ) := y(x0 + t; x0 , y 0 ) − y 0 ist Lösung der Anfangswertaufgabe v 0 (t) = f (x0 + t, y 0 + v(t)) =: g(t, v(t); x0 , y 0 ), v(0) = 0. 208 KAPITEL 27. ANFANGSWERTAUFGABEN Nach Satz 27.24. hängt v(t) stetig differenzierbar von den Parametern x0 und y 0 ab und damit auch y(x; x0 , y 0 ) = v(x − x0 ) + y 0 . Daß Z(x) die Anfangswertaufgabe (27.10) erfüllt, folgt aus (27.9). Mit t := x − x0 ∂ ist Z(x) = v(t; x0 , y 0 ) + E. Daher gilt Z(x0 ) = E und ∂y 0 ∂ ∂ Z 0 (x) = g(t, v(t; x0 , y 0 ); x0 , y 0 )(Z(x) − E) + g(t, v(t; x0 , y 0 ); x0 , y 0 ) ∂v ∂y 0 ∂ ∂ = f (x, y(x; x0 , y 0 ))(Z(x) − E) + f (x, y(x; x0 , y 0 )) ∂y ∂y ∂ = f (x, y(x; x0 , y 0 ))Z(x). ∂y Daß die Funktion w(x) die Gleichung (27.11) erfüllt, erhält man genauso. Bemerkung 27.28. Ist y(x) eine Lösung der Differentialgleichung y 0 = f (x, y), (27.12) so heißt das lineare Differentialgleichungssystem (27.10) die zugehörige Variationsgleichung. Sie spielt für die Untersuchung des lokalen Verhaltens der Lösungen von (27.12) eine ähnliche Rolle wie die Funktionalmatrix bei der Untersuchung des lokalen Lösungsverhaltens nichtlinearer Gleichungssysteme. 2 Bemerkung 27.29. Satz 27.24. und Korollar 27.27. gelten entsprechend für höhere Ableitungen. Ist z.B. f : Q → IRn eine C m -Funktion, so ist auch y(x; x0 , y 0 ) eine 2 C m -Funktion aller Variablen. Beispiel 27.30. y 0 = y 2 , y(x0 ) = y0 hat die eindeutige Lösung y(x; x0 , y0 ) = y0 (1 − y0 (x − x0 ))−1 . Man rechnet leicht nach, daß ∂ z(x) := y(x; x0 , y0 ) = (1 − y0 (x − x0 ))−2 ∂y0 die Anfangswertaufgabe z 0 = 2y(x; x0 , y0 ) z = 2y0 (1 − y0 (x − x0 ))−1 z, z(x0 ) = 1, löst und daß w(x) := ∂ y(x; x0 , y0 ) = −y02 (1 − y0 (x − x0 ))−2 ∂x0 die Anfangswertaufgabe w0 = 2y(x; x0 , y0 ) w = 2y0 (1 − y0 (x − x0 ))−1 w, w(x0 ) = −y02 löst. 2 Kapitel 28 Lineare Differentialgleichungen 28.1 Lineare Systeme erster Ordnung Wir betrachten in diesem Abschnitt 28.1 das lineare Differentialgleichungssystem erster Ordnung y 0 = A(x) y + b(x). (28.1) Dabei setzen wir voraus, daß A : IR → IR(n,n) und b : IR → IRn stetige Funktionen sind. Wir wissen bereits, daß die zu (28.1) gehörende Anfangswertaufgabe y 0 = A(x) y + b(x), y(x0 ) = y 0 für alle x0 ∈ IR und alle y 0 ∈ IRn eine eindeutige Lösung y(x; x0 , y 0 ) besitzt, die für alle x ∈ IR erklärt ist. Wie für lineare Gleichungssysteme gilt Satz 28.1. Die allgemeine Lösung von (28.1) lautet y(x) = y s (x) + y h (x). Dabei ist y s eine spezielle Lösung von (28.1) und y h (x) die allgemeine Lösung des zu (28.1) gehörenden homogenen Differentialgleichungssystems y 0 = A(x) y. (28.2) 210 KAPITEL 28. LINEARE DIFFERENTIALGLEICHUNGEN Beweis: Sind y s und y h wie oben, so löst y = y s + y h das inhomogene System (28.1). Sind umgekehrt y 1 und y 2 Lösungen von (28.1), so löst z := y 1 − y 2 das homogene System (28.2). Die Lösungen des homogenen Systems y 0 = A(x) y bilden offenbar einen Vektorraum. Eine Basis dieses Vektorraums kann man auf folgende Weise bestimmen: Wir wählen ein x0 ∈ IR und eine Basis v 1 , . . . , v n des IRn . Dann besitzt jede der Anfangswertaufgaben y 0 = A(x) y, y(x0 ) = v j , j = 1, . . . , n, eine eindeutige Lösung y j (x). y 1 , . . . , y n ist eine Basis des Lösungsraumes von (28.2), denn natürlich ist jede Lin P nearkombination αj y j (x) eine Lösung von (28.2). Ist umgekehrt ỹ(x) eine belie- j=1 bige Lösung von (28.2), so kann man den Vektor ỹ(x0 ) ∈ IRn auf eindeutige Weise als Linearkombination n P αj v j = ỹ(x0 ) der v j darstellen. Dann lösen ỹ(x) und j=1 ∗ y (x) := n P αj y (x) beide die Anfangswertaufgabe y 0 = A(x) y, y(x0 ) = ỹ(x0 ). j j=1 Aus der eindeutigen Lösbarkeit folgt ỹ(x) = y ∗ (x) = n P αj y j (x), und diese Darstel- j=1 lung von ỹ als Linearkombination der y j ist eindeutig. Aus den obigen Überlegungen folgt insbesondere Satz 28.2. Die Dimension des Lösungsraums des homogenen, linearen Differentialgleichungssystems (28.2) ist n. Definition 28.3. Ist y 1 , . . . , y n eine beliebige Basis des Lösungsraums von (28.2), so heißt Y (x) := (y 1 (x), . . . , y n (x)) ein Fundamentalsystem oder eine Fundamentallösung von (28.2). Satz 28.4. Es seien y 1 , . . . , y n n Lösungen des homogenen Systems y 0 = A(x) y und Y (x) := (y 1 (x), . . . , y n (x)). Dann gilt (i) Ist Y ein Fundamentalsystem von (28.2), so ist die allgemeine Lösung von (28.2) gegeben durch y(x) = Y (x) α, α ∈ IRn . 28.1. LINEARE SYSTEME ERSTER ORDNUNG 211 (ii) Y ist genau dann ein Fundamentalsystem von (28.2), wenn für ein x0 ∈ IR die Matrix Y (x0 ) regulär ist. (iii) Ist Y (x0 ) regulär für ein x0 ∈ IR, so ist Y (x) regulär für alle x ∈ IR. Beweis: (i) ist klar. (ii) Ist Y (x0 ) regulär, so ist v 1 := y 1 (x0 ), . . . , v n := y n (x0 ) eine Basis des IRn . Konstruiert man hiermit wie oben ein Fundamentalsystem von (28.2), so erhält man wegen der Eindeutigkeit gerade Y (x). Ist Y (x0 ) singulär, so gibt es ein v ∈ IRn , v ∈ / {Y (x0 ) α : α ∈ IRn }, und es ist klar, daß die eindeutige Lösung von y 0 = A(x) y, y(x0 ) = v, nicht in span {y 1 (x), . . . , y n (x)} liegt, Y also kein Fundamentalsystem ist. (iii) Ist det Y (x0 ) 6= 0, so ist Y nach (ii) ein Fundamentalsystem. Gilt det Y (x1 ) = 0 für ein x1 ∈ IR, so erhält man wie im zweiten Teil von (ii) den Widerspruch, daß Y kein Fundamentalsystem ist. Beispiel 28.5. Sei 8 8 4 1 . A = −1 2 −2 −4 −2 Dann rechnet man leicht nach, daß (2x − 0.25)e4x 0 2e4x 4x 2 1 y (x) = −e , y (x) = (−x + 0.5)e4x , y 3 (x) = −1 2 0 −0.25e4x Lösungen von y 0 = A y sind (wie man diese erhält, werden wir noch sehen). Es gilt det (y 1 , y 2 , y 3 ) = e8x 6= 0 für alle x ∈ IR. 2 Ist eine Fundamentallösung Y des homogenen Systems bekannt, so kann man (wie im Falle n = 1) die Lösung des inhomogenen Problems durch Variation der Konstanten ermitteln. Dazu machen wir den Ansatz y(x) = Y (x) α(x). y 0 (x) = Y 0 (x) α(x) + Y (x) α0 (x) = A(x) Y (x) α(x) + Y (x) α0 (x) = A(x) y(x) + Y (x) α0 (x). 212 KAPITEL 28. LINEARE DIFFERENTIALGLEICHUNGEN y löst also genau dann das inhomogene System y 0 = A(x) y + b(x), wenn Y (x) α0 (x) = b(x), d.h. α(x) = C + Zx Y −1 (t) b(t) dt, C ∈ IRn . x0 Damit ist der folgende Satz 28.6. gezeigt. Satz 28.6. Es sei Y (x) ein beliebiges Fundamentalsystem des homogenen Problems y 0 = A(x) y. Dann ist y(x) = Y (x) Y −1 0 (x0 ) y + Zx Y −1 (t) b(t) dt (28.3) x0 die eindeutige Lösung der Anfangswertaufgabe y 0 = A(x) y + b(x), y(x0 ) = y 0 . Beispiel 28.7. ! ! 0 y = 0 0 1 , y+ 2 3x4 −3/x 3/x 1 . 2 y(1) = Man rechnet leicht nach, daß x x3 1 3x2 Y (x) = ! ⇒ Y −1 1 (x) = 3 2x 3x2 −x3 −1 x !! ein Fundamentalsystem des homogenen Problems ist. Daher ist die Lösung der Anfangswertaufgabe ! 1 3 x 2 3 y(x) = = x 1 3x 2 −1 −1 1 ! x 3Z x3 1 1 + 2 x 1 3x 2 1 1 1 + 2 2 2 −t4 t2 ! Zx 1 1 t3 dt = 2 3 3t −t −1 t ! 0 3t4 ! dt ! 0.8x + 0.2x6 . 0.8 + 1.2x5 1 2 Bemerkung 28.8. Die geschlossene Lösungformel (28.3) wird nur selten verwendet. Es ist häufig möglich durch einen geschickten Ansatz eine spezielle Lösung y s (x) des inhomogenen Problems zu bestimmen und dann die Parameter α ∈ IRn in der allgemeinen Lösung y(x) = y s (x) + Y (x)α aus den Anfangswerten zu bestimmen. 2 28.1. LINEARE SYSTEME ERSTER ORDNUNG 213 Es ist i.a. schwierig, ein Fundamentalsystem zu bestimmen. Ist jedoch eine Lösung bekannt, so kann man das System (28.2) auf ein System mit n − 1 Gleichungen reduzieren. Es sei ỹ(x) eine Lösung von (28.2) und es gelte o.B.d.A. ỹ1 (x) 6= 0 (wobei diese Forderung zu einer Einschränkung des betrachteten Intervalls und zu einer Wiederholung der folgenden Konstruktion in einem Anschlußintervall mit einer anderen Komponente ỹj , j ∈ {2, . . . , n} führen kann). Wir machen dann den Ansatz y(x) := η(x) ỹ(x) + z(x) mit η : IR → IR für weitere Lösungen. Das Einsetzen in (28.2) liefert y 0 = η 0 ỹ + ηỹ 0 + z 0 = ηAỹ + Az, d.h. z 0 = Az − η 0 ỹ oder in Koordinatenschreibweise zi0 = n X aij zj − η 0 ỹi , i = 1, . . . , n. j=1 Die Idee ist es nun, η so zu wählen, daß z10 nur von z1 abhängt. Dann kann man z1 ≡ 0 wählen, und z20 , . . . , zn0 hängen nur von z2 , . . . , zn ab. n zj P Es sei η 0 = a1j . Dann lautet die erste Gleichung z10 = a11 z1 . Wir wählen als ỹ1 j=2 Lösung z1 ≡ 0. Die restlichen Gleichungen lauten dann zi0 = = n X aij zj − j=2 n X j=2 n X a1j j=2 aij − a1j zj ỹi ỹ1 ỹi zj , i = 2, . . . , n. ỹ1 Wir fassen das Ergebnis in dem folgenden Satz 28.9. zusammen. Satz 28.9. Sei ỹ eine Lösung des homogenen Systems (28.2) und sei (z.B.) die erste Komponente ỹ1 (x) 6= 0. Dann kann man die weiteren Lösungen von (28.2) folgendermaßen bestimmen: Sei B = (bij )i,j=2,...,n , bij (x) := aij (x) − ỹi (x) des Systems z 0 = Bz, so ist a1j (x) . Ist dann z 6≡ 0 eine Lösung ỹ1 (x) 0 z y = ηỹ + mit η(x) := Zx x0 1 (a12 (t), . . . , a1n (t)) z(t) dt ỹ1 (t) eine von ỹ linear unabhängige Lösung von y 0 = Ay. 214 KAPITEL 28. LINEARE DIFFERENTIALGLEICHUNGEN 0 z Daß ỹ und ηỹ + Aus αỹ + β ηỹ + linear unabhängig sind, sieht man so: 0 z = 0 folgt insbesondere (1. Komponente) ỹ1 (α + βη) = 0, 0 z d.h. α + βη = 0. Damit folgt β = 0, d.h. β = 0, und damit α = 0. Beispiel 28.10. Sei A wie im Beispiel 28.5. und ỹ(x) = (2e4x , −e4x , 0)T eine partikuläre Lösung von (28.2). Dann gilt b22 = a22 − ỹ2 a12 8 = 2 − (−e4t ) = 6, ỹ1 (2e4t ) b23 = 3, b32 = −4, b33 = −2. und entsprechend Damit hat man das reduzierte System 6 3 z = Bz = −4 −2 0 −1 und z (x) ≡ , z 2 (x) = 2 1 3e4x −2e4x Im Falle z 1 gilt η(x) = Zx 0 z ! sind linear unabhängige Lösungen. 1 −1 (8, 4) 2 2e4t dt = 0, T d.h. y(t) ≡ (0, −1, 2) ist eine Lösung des Ausgangsproblems. Im Falle z 2 gilt η(x) = Zx 0 1 3 (8, 4) 4t −2 2e e4t dt = 8x und man erhält die Lösung 16x e4x y(x) = (3 − 8x) e4x −2e4x (= y 1 (x) + 8y 2 (x) der früheren Fundamentallösung). 28.2 2 Systeme erster Ordnung mit konstanten Koeffizienten Wir betrachten nun den Fall konstanter Koeffizienten y 0 = A y, A ∈ IR(n,n) . (28.4) 28.2. SYSTEME 1. O. MIT KONSTANTEN KOEFFIZIENTEN 215 Für eine Lösung machen wir den Ansatz y(x) = eλx v, λ ∈ C, v ∈ Cn . Das Einsetzen in (28.4) liefert y 0 (x) = λ eλx v = A y(x) = A(eλx v) = eλx A v, d.h. (wegen eλx 6= 0) λ v = A v. Das obige y ist also genau dann eine nichttriviale Lösung von (28.4), wenn λ ein Eigenwert der Matrix A und v ein zugehöriger Eigenvektor ist. Hat A nur reelle Eigenwerte λ1 , . . . , λn und gibt es eine Basis v 1 , . . . , v n des IRn von zugehörigen Eigenvektoren, so ist y(x) := (eλ1 x v 1 , . . . , eλn x v n ) ein Fundamentalsystem von (28.4), und die allgemeine Lösung ist y(x) = n X αj eλj x v j , αj ∈ IR. j=1 Ist λ ∈ / IR ein Eigenwert und v ∈ Cn ein zugehöriger Eigenvektor von A, so ist auch λ̄ ein Eigenwert von A mit Eigenvektor v̄. In diesem Fall sind eλx v und eλ̄x v̄ komplexe Lösungen von (28.4). Man erhält hieraus zwei linear unabhängige reelle Lösungen: 1 y 1 (x) = Re (eλx v) = (eλx v + eλ̄x v̄) 2 1 y 2 (x) = Im (eλx v) = (eλx v − eλ̄x v̄) 2i Beispiel 28.11. Die Schwingungsgleichung aus Abschnitt 26.1 ist äquivalent dem System erster Ordnung mit konstanten Koeffizienten 0 y = 0 1 2 −ω0 −2δ ! y =: A y. Die Matrix A besitzt das charakterische Polynom p(λ) = λ2 + 2δλ + ω02 mit den Nullstellen λ± = −δ ± q δ 2 − ω02 . Im Falle δ > ω0 besitzt A zwei reelle Eigenwerte λ± mit den Eigenvektoren Ein (reelles Fundamentalsystem) ist also gegeben durch Y (x) = exp(λ+ x) exp(λ− x) . λ+ exp(λ+ x) λ− exp(λ− x) 1 . λ± 216 KAPITEL 28. LINEARE DIFFERENTIALGLEICHUNGEN Im Falle δ < ω0 besitzt A zwei komplexe Eigenwerte λ± = −δ ± iω, ω := 1 , und wegen mit den Eigenvektoren λ± ω02 − δ 2 1 −δ + iω cos ωx + i sin ωx −δ cos ωx − ω sin ωx + i(−δ sin ωx + ω cos ωx eλx v = e−δx (cos ωx + i sin ωx) = e−δx q erhält man das reelle Fundamentalsystem Y (x) = e−δx cos ωx sin ωx . −δ cos ωx − ω sin ωx −δ sin ωx + ω cos ωx Abbildung 28.1 Graph von y1 (x) = α+ eλ+ x + α− eλ− x Im Falle δ > ω0 > 0 gilt λ± < 0, und für alle Anfangswerte y1 (0), y10 (0) geht die Lösung y1 (x) = α+ eλ+ x + α− eλ− x ohne Oszillationen auszuführen, gegen die Ruhelage y1 = 0 (überdämpfter Fall). Im Falle 0 < δ < ω0 geht die Lösung ebenfalls (wegen des Faktors e−δx ) gegen die Ruhelage, wobei aber Schwingungen ausgeführt werden (schwach gedämpfter Fall). Im Falle δ = ω0 > 0 hat A den doppelten Eigenwert λ = −δ mit dem eindi1 mensionalen Eigenraum {α : α ∈ IR}. Da nicht genug linear unabhängige −δ Eigenvektoren zur Verfügung stehen, gelangt man in diesem Fall nicht mit dem Ansatz y(x) = eλx v zu einem Fundamentalsystem. 2 Wir betrachten nun den allgemeinen Fall: Die Matrix A besitzt eine Jordansche Normalform (vgl. Kapitel ??), d.h. es gibt eine Transformationsmatrix V ∈ C(n,n) , so daß J = V −1 AV 28.2. SYSTEME 1. O. MIT KONSTANTEN KOEFFIZIENTEN J1 0 J = .. 0 . Jm λj , J = j 1 .. .. . . .. . 0 0 217 , j = 1, . . . , m. 1 λj In der Matrix V = (v 11 , . . . , v 1r1 , v 21 , . . . , v m1 , . . . , v mrm ) ist v j1 eine Eigenvektor und v jk (k = 2, . . . , rj ) ein Hauptvektor der Stufe k − 1 zum Eigenwert λj (j = 1, . . . , m). Mit der Variablentransformation z(x) := V −1 y(x) geht das Differentialgleichungssystem (28.4) über in z 0 (x) = V −1 y 0 (x) = V −1 Ay = V −1 AV z = J z. (28.5) Kennt man das Fundamentalsystem für z 0 = J z, so erhält man durch die Rücktransformation y = V z ein Fundamentalsystem für y 0 = Ay. Ist A diagonalisierbar, also J = diag (λ1 , . . . , λn ), so lautet das System (28.5) zj0 = λj zj , j = 1, . . . , n, ist also vollständig entkoppelt, und die Lösungen z j (x) = exp(λj x) ej führen nach Rücktransformation auf das uns schon bekannte Fundamentalsystem Y (x) = (exp(λ1 x) v 1 , . . . , exp(λn x) v n ). Ist A nicht diagonalisierbar, so ist das System (28.5) nicht vollständig entkoppelt. Offenbar kann man aber die zu den verschiedenen Jordankästchen J i gehörenden Komponenten getrennt behandeln. Beispiel 28.12. (vgl. Beispiel 28.5. auf Seite 211) 2 − 41 0 8 8 4 1 1 gilt mit V := −1 Für A = −1 2 −1 2 −2 −4 −2 0 − 14 2 4 1 −1 J = V AV = 0 4 0 0 0 0 . 0 218 KAPITEL 28. LINEARE DIFFERENTIALGLEICHUNGEN Das System (28.5) lautet also z10 = 4z1 + z2 z20 = 4z2 z30 = 0 · z3 . Die ersten beiden Gleichungen sind also unabhängig von z3 , die letzte Gleichung ist 2 unabhängig von z1 und z2 . Allgemein betrachten wir das System λj 1 0 λ j w0 = J j w = 0 0 1 ... ... w, .. . 1 0 . . . λj (28.6) oder ausführlich (mit λ := λj , k := rj ) wi0 = λ wi + wi+1 , i = 1, . . . , k − 1 wk0 = λwk . Die letzte Gleichung hat die Lösung wk = ck exp(λx), also lautet die vorletzte 0 = λwk−1 + ck exp(λx) mit der Lösung wk−1 = (ck−1 + xck ) exp(λx). Gleichung wk−1 Setzt man so fort, so erhält man (durch Induktion) für j = 0, . . . , k − 1 wk−j = (ck−j + xck−j+1 + 1 2 1 x ck−j+2 + · · · + xj ck ) exp(λx). 2 j! Wählt man hierin für j = 0, . . . , k − 1 c` = δj` , ` = 0, . . . , k − 1, so erhält man die linear unabhängigen Lösungen von (28.6): w1 = (1, 0, 0, . . . , 0)T exp(λx) w2 = (x, 1, 0, . . . , 0)T exp(λx) .. . T 1 xk−1 , . . . , x, 1 exp(λx). wk = (k − 1)! Bezeichnet v 1 , . . . , v k die zu J j gehörenden Spalten von V (also einen Eigenvektor und Hauptvektoren zu λ), so liefert die Rücktransformation die unabhängigen Lösungen von (28.4): v 1 exp(λx) 28.2. SYSTEME 1. O. MIT KONSTANTEN KOEFFIZIENTEN 219 (xv 1 + v 2 ) exp(λx) 1 x2 v 1 + xv 2 + v 3 exp(λx) 2 .. . 1 xk−1 v 1 + · · · + xv k−1 + v k exp(λx). (k − 1)! 2 Beispiel 28.13. Für λ = 4 gilt im Beispiel 28.12. k = 2, v 1 = −1 und v 2 = 0 −0.25 0.5 , und man erhält die Lösungen −0.25 (2x − 0.25) e4x 2e4x y 1 = −e4x , y 2 = (−x + 0.5) e4x , 0 −0.25 e4x 0 0 3 3 . −1 −1 die Lösung y = sowie für λ = 0, k = 1, v = 2 2 Dies ist das Fundamentalsystem, das im Beispiel 28.5. auf Seite 211 angegeben 2 wurde. Beispiel 28.14. Für das zur Schwingungsgleichung gehörende System erhält man ! 1 1 δ im Fall δ = ω0 > 0 mit V = die Jordansche Normalform −δ 0 −δ 1 J= 0 −δ von A = 0 1 −δ 2 −2δ ! und damit das Fundamentalsystem ! 1 x + 1δ Y (x) = exp(−δx) , exp(−δx) . −δ −δx Auch in diesem Fall führt das System keine Schwingungen aus. Der Fall ω0 = δ heißt aperiodischer Grenzfall (oder kritisch gedämpfter Fall). Wir geben noch eine andere Gestalt einer Fundamentallösung an: Dazu definieren wir zunächst für A ∈ C(n,n) ∞ X 1 j A. eA := j=0 j! 2 220 KAPITEL 28. LINEARE DIFFERENTIALGLEICHUNGEN Diese Reihe konvergiert, denn für die Partialsummen S n := n P j=0 n X kS n − S m k ≤ j=m+1 1 kAkj → 0 j! 1 j! Aj gilt für n, m → ∞. Sind A, B ∈ C(n,n) vertauschbar, d.h. AB = BA, so beweist man wie für die komplexe Exponentialfunktion mit Hilfe des Cauchy Produktes eA · eB = eA+B . Insbesondere gilt also eA · e−A = E. Wir betrachten nun die Potenzreihe Y (x) := eAx . Diese kann man gliedweise differenzieren und erhält Y 0 (x) = ∞ X j=1 ∞ X 1 1 xj−1 Aj = A (Ax)j = A eAx = A · Y (x), (j − 1)! j! j=0 d.h. eAx ist eine Fundamentallösung des homogenen Systems y 0 = Ay. Wegen Y (0) = E ist die Lösung der Anfangswertaufgabe y 0 = Ay + b, y(0) = y 0 nach Satz 28.6. gegeben durch y(x) = eAx y 0 + n Zx e−At b(t) dt . o 0 Man beachte, daß die obige Gestalt der Fundamentallösung und die obige Lösungsformel niemals zur praktischen Berechnung verwendet werden. Wir werden sie bei der Stabilitätsuntersuchung von stationären Punkten benutzen. 28.3 Lineare Differentialgleichungen höherer Ordnung Wir betrachten die lineare Differentialgleichung n-ter Ordnung Ly(x) := n X aj (x) y (j) (x) = f (x), (28.7) j=0 wobei an (x) ≡ 1 sei und aj (x) und f (x) stetige reelle Funktionen von x sind. Die zugehörige homogene Gleichung ist Ly(x) = 0. Mit der Variablentransformation z1 (x) := y(x) , z2 (x) := y 0 (x) , . . . , zn (x) := y (n−1) (x) (28.8) 28.3. LINEARE DGL HÖHERER ORDNUNG 221 geht (28.7) über in das lineare Differentialgleichungssystem erster Ordnung z 0 = A(x) z + b(x), wobei A die Frobeniusmatrix 0 1 0 0 0 0 1 0 ............................ A= 0 0 0 1 −a0 −a1 −a2 . . . −an−1 ist und b(x) := (0, 0, . . . , 0, f (x))T . Insbesondere folgt damit Satz 28.15. Es seien aj , j = 0, . . . , n, und f stetige, reelle Funktionen auf [a, b] bzw. IR, und es sei an ≡ 1. Dann besitzt die Anfangswertaufgabe Ly(x) = f (x), y (j) (x0 ) = aj , j = 0, . . . , n − 1 für alle x0 ∈ [a, b] bzw. x0 ∈ IR und alle Anfangswerte aj ∈ IR, j = 0, . . . , n − 1, eine eindeutige Lösung y(x), die in dem ganzen Intervall [a, b] bzw. in ganz IR definiert ist. Wir formulieren zunächst die Eigenschaft einer Matrix, Fundamentalsystem zu sein, für unseren Spezialfall um: Ist z(x) eine Lösung des homogenen Problems z 0 = A(x) z, so gilt wegen der speziellen Gestalt von A z(x) = (y(x), y 0 (x), . . . , y (n−1) (x))T mit einer Lösung y von (28.8). Ein Fundamentalsystem von z 0 = A(x) z hat daher notwendig die Gestalt y1 (x) y2 (x) ... yn (x) 0 y 0 (x) y (x) . . . y 0 (x) W (x) = . . .1. . . . . . . . . . .2 . . . . . . . . . . . . . . .n. . . . . , (n−1) (n−1) (n−1) y1 (x) y2 (x) . . . yn (x) (28.9) wobei y1 , . . . , yn Lösungen von (28.8) sind. Definition 28.16. Eine Matrix der Gestalt (28.9) heißt Wronski-Matrix von (28.8). Sie ist genau dann eine Fundamentalmatrix des Systems z 0 = A(x) z, wenn die Wronski-Determinante det W (x) für ein x von Null verschieden ist. 222 KAPITEL 28. LINEARE DIFFERENTIALGLEICHUNGEN Bemerkung 28.17. Gilt det W (x0 ) 6= 0 für ein x0 , so gilt det W (x) 6= 0 für alle x (vgl. Satz 28.4.). 2 Satz 28.18. Es seien y1 , . . . , yn Lösungen der homogenen Differentialgleichung (28.8), und es sei W (x) die hiermit gebildete Wronski-Matrix. Dann sind äquivalent (i) det W (x0 ) 6= 0 für ein x0 n P (ii) y1 , . . . , yn sind linear unabhängig, d.h. aus αj yj (x) ≡ 0 folgt α1 = . . . = j=1 αn = 0. Bemerkung 28.19. Wir wissen bereits, daß die Spalten der Wronski-Matrix W (x) an jeder Stelle x linear unabhängig sind. Hier wird behauptet, daß sogar die Funk2 tionen y1 , . . . , yn linear unabhängig sind. Beweis: Es sei det W (x0 ) 6= 0, und es sei y(x) := n P αj yj (x) ≡ 0. j=1 Dann erhält man durch Differenzieren y (k) (x) = n P j=1 (k) αj yj (x) ≡ 0 für k = 1, . . . , n − 1. Speziell für x = x0 besagt dies, daß der Vektor α := (α1 , . . . , αn )T das lineare Gleichungssystem W (x0 ) α = 0 löst, und wegen det W (x0 ) 6= 0 folgt α = 0, d.h. y1 , . . . , yn sind linear unabhängig. Es gelte umgekehrt det W (x0 ) = 0. Dann besitzt das lineare Gleichungssystem W (x0 ) α = 0 eine nichttriviale Lösung α. Die hiermit definierte Funktion y(x) := n P αj yj (x) löst dann wegen W (x0 ) α = 0 die Anfangswertaufgabe Ly(x) = 0, j=1 y(x0 ) = 0 , . . . , y (n−1) (x0 ) = 0, und wegen der Eindeutigkeit folgt y(x) ≡ 0, d.h. y1 (x), . . . , yn (x) sind linear abhängig. Hiermit folgt aus Satz 28.1. und Satz 28.4. der folgende Satz 28.20. Satz 28.20. Die homogene Differentialgleichung (28.8) besitzt genau n linear unabhängige Lösungen y1 , . . . , yn . Ist yp eine partikuläre Lösung der inhomogenen Gleichung (28.7), so haben alle Lösungen von (28.7) die Gestalt y(x) = yp (x) + n X j=1 αj yj (x), αj ∈ IR. 28.3. LINEARE DGL HÖHERER ORDNUNG 223 Beispiel 28.21. Wir betrachten als Beispiel die nichtautonome Schwingungsgleichung im schwach gedämpften Fall (0 < δ < ω0 ): y 00 + 2δy 0 + ω02 y = C · cos Ωx. Die homogene Gleichung besitzt mit ω = q ω02 − δ 2 die (linear unabhängigen) Lösun- gen y1 (x) = e−δx cos ωx und y2 (x) = e−δx sin ωx. Für eine partikuläre Lösung der inhomogenen Gleichung machen wir den Ansatz yp (x) = A sin Ωx + B cos Ωx. Dann gilt Lyp (x) = (−Ω2 A − 2δΩB + ω02 A) sin Ωx + (−Ω2 B + 2δΩA + ω02 B) cos Ωx = C · cos Ωx, und yp ist genau dann eine Lösung, wenn ω02 − Ω2 −2δΩ 2δΩ ω02 − Ω2 ! A B 0 , C = d.h. 2δΩC (ω02 − Ω2 )C , B = . (ω02 − Ω2 )2 + 4δ 2 Ω2 (ω02 − Ω2 )2 + 4δ 2 Ω2 Damit ist die allgemeine Lösung der inhomogenen Gleichung A= y(x) = α1 e−δx cos ωx + α2 e−δx sin ωx C + 2 (2δΩ sin Ωx + (ω02 − Ω2 ) cos Ωx). 2 2 2 2 (ω0 − Ω ) + 4δ Ω Die ersten beiden Terme werden ausgedämpft (gehen für x → ∞ gegen 0), d.h. nach einer Einschwingzeit geht die Lösung (bei jeder Wahl der Anfangswerte) gegen eine periodische Lösung y(x) = C (ω02 − Ω2 )2 + 4δ 2 Ω2 (2δΩ sin Ωx + (ω02 − Ω2 ) cos Ωx) mit der Erregerfrequenz Ω. Die Amplitude der verbleibenden Schwingung ist C A= q . (ω02 − Ω2 )2 + 4δ 2 Ω2 Diese ist klein, wenn die Erregerfrequenz Ω von der Eigenfrequenz weit entfernt ist C und erreicht (bei festem Ω) für ω0 = Ω ihr Maximum Amax = . Diesen Fall 2δΩ bezeichnet man als Resonanz. Bei mechanischen Schwingungen kann Resonanz zum Bruch von Materialien führen (Resonanzkatastrophe). 2 224 KAPITEL 28. LINEARE DIFFERENTIALGLEICHUNGEN Entsprechend dem Vorgehen in Abschnitt 28.1 kann man die Ordnung der Differentialgleichung reduzieren, wenn eine Lösung von (28.8) bekannt ist. Es sei ỹ(x) 6= 0 eine Lösung von (28.8). Mit dem Ansatz y(x) = ỹ(x) u(x) gilt dann n X n X aj (x) y (j) = j=0 = aj (x) j X j j=0 k=0 n X (j) aj (x) ỹ k u+ j=0 n X = ỹ (j−k) u(k) n X aj (x) j=1 aj (x) j=1 j X j k k=1 j X j k=1 k ỹ (j−k) u(k) ỹ (j−k) u(k) = 0 (28.10) wegen j X dj j (ỹu) = j k dx k=0 ỹ (j−k) u(k) . In (28.10) sind aj und ỹ (j−k) bekannt, und es tritt u nicht mehr auf. (28.10) ist also eine lineare Differentialgleichung der Ordnung (n−1) für u0 . Der führende Koeffizient (d.h. der Koeffizient bei u(n) ) ist an ỹ = ỹ. Ist also ỹ(x) 6= 0, so kann man (28.8) in eine Differentialgleichung vom Typ (28.8) der Ordnung n − 1 umschreiben. Beispiel 28.22. y 00 + xy 0 + y = 0 −x2 besitzt die partikuläre Lösung ỹ(x) = exp 2 . Mit y = ỹ · u gilt y 00 + xy 0 + y = exp 0 x2 Hieraus folgt u (x) = exp 2 −x2 2 , d.h. u(x) = −x2 Zx unabhängige Lösung ist y(x) = exp 2 (u00 − xu0 ) = 0. Zx t2 exp 0 t2 exp 2 2 dt, und eine von ỹ linear dt. 2 Beispiel 28.23. Wir betrachten die Eulersche Differentialgleichung a b y 00 + y 0 + 2 y = 0, x x x > 0. Der Ansatz y(x) := xp liefert p(p − 1)xp−2 + apxp−2 + bxp−2 = (p2 + (a − 1)p + b)xp−2 = 0, (28.11) 28.3. LINEARE DGL HÖHERER ORDNUNG 225 und daher ist y(x) = xp genau dann eine Lösung von (28.11), wenn p± = 1 − a 1q ± (1 − a)2 − 4b. 2 2 Ist (1 − a)2 − 4b > 0, so haben wir ein Fundamentalsystem von (28.11) y+ (x) = xp+ , y− (x) = xp− gefunden. Gilt (1 − a)2 − 4b < 0, so besitzt die quadratische Gleichung p2 + (a − 1)p + b = 0 zwei konjugiert komplexe Nullstellem p± = α ± i · β, α := 0.5(1 − a), β := q 0.5 (1 − a)2 − 4b, und man erhält aus den komplexen Lösungen y± (x) = exp((α ± i · β) log x) = xα · exp(±i · β log x) = xα (cos(β log x) ± i · sin(β log x)) durch lineare Kombination das reelle Fundamentalsystem 1 ỹ1 (x) = (y+ (x) + y− (x)) = xα cos(log x), 2 1 ỹ2 (x) = (y+ (x) − y− (x)) = xα sin(log x). 2i Im Fall (1 − a)2 − 4b = 0 verwenden wir die Lösung y(x) = xp , p = 0.5(1 − a), zur Reduktion der Ordnung. Mit dem Ansatz y(x) = u(x)xp folgt a b y 00 + y 0 + 2 y = 2pxp−1 + xp u00 + axp−1 u0 = (u00 + x−1 u0 )xp = 0, x x und da u(x) = ln x diese Differentialgleichung löst, erhält man das Fundamentalsystem y1 (x) = xp , y2 (x) = xp · ln x, 1 p = (1 − a). 2 2 Sind n linear unabhängige Lösungen y1 , . . . , yn von (28.8) bekannt, so kann man durch Variation der Konstanten eine Lösung der inhomogenen Differentialgleichung (28.7) ermitteln. Wir verwenden die Variation der Konstanten aus Abschnitt 28.1 für Systeme. Es ist y1 (x) y2 (x) ... yn (x) 0 y 0 (x) y (x) ... y 0 (x) W (x) = . . .1. . . . . . . . . . .2 . . . . . . . . . . . . . . .n. . . . . (n−1) (n−1) (n−1) y1 (x) y2 (x) . . . yn (x) eine Fundamentalmatrix des zu (28.8) äquivalenten Systems erster Ordnung 0 1 0 ... 0 0 0 1 . . . 0 z0 = . . . . . . . . . . . . . . . . . . . . . . . . . . . . z =: Az. −a0 −a1 −a2 . . . −an−1 226 KAPITEL 28. LINEARE DIFFERENTIALGLEICHUNGEN Variation der Konstanten für das zu (28.7) äquivalente System 0 .. z 0 = Az + . =: Az + F 0 f (x) (28.12) liefert die spezielle Lösung z(x) = W (x) Zx W −1 (t)F (t) dt. x0 Sei also c0 (x) := (c01 (x) , . . . , c0n (x))T die Lösung des linearen Gleichungssystems W (x)c0 (x) = F (x) und cj (x) = Zx c0j (t) dt, j = 1, . . . , n. x0 Dann löst z(x) := W (x)c(x) das inhomogene System (28.12), und die erste Komponente y(x) := z1 (x) = n X cj (x)yj (x) j=1 ist eine Lösung der inhomogenen Differentialgleichung (28.7). Beispiel 28.24. 2 0 y = x3 . x Die homogene Gleichung hat offenbar die unabhängigen Lösungen Ly := y 00 + y1 (x) ≡ 1, y2 (x) = 1 . x Die Variation der Konstanten liefert dann 1 x1 0 − x12 ! 0 c1 c02 = 0 x3 ! mit der Lösung c01 = x4 , c02 = −x5 , und man erhält als spezielle Lösung des inhomogenen Problems ys = c1 y1 + c2 y2 = 1 5 1 5 1 5 x − x = x. 5 6 30 2 28.4. LINEARE DGL MIT KONSTANTEN KOEFFIZIENTEN 28.4 227 Lineare Differentialgleichungen mit konstanten Koeffizienten Wir betrachten nun die lineare Differentialgleichung n-ter Ordnung. Ly := n X aj y (j) = f (x) (28.13) j=0 mit konstanten Koeffizienten aj ∈ IR, an = 1, bzw. die zugehörige homogene Differentialgleichung Ly = 0. (28.14) Mit dem Ansatz y(x) = exp(λx) erhält man Ly = n X aj λj exp(λx) = 0 j=0 genau dann, wenn λ eine Nullstelle des charakteristischen Polynoms p(λ) := n X aj λ j j=0 ist. Besitzt p die n verschiedenen Nullstellen λ1 , . . . , λn , so hat man bereits n linear unabhängige Lösungen yj (x) = exp(λj x), j = 1, . . . , n, gefunden. Den allgemeinen Fall behandeln wir wieder durch Zurückführung auf ein System erster Ordnung z 0 = Az mit der Begleitmatrix 0 1 0 ... 0 0 0 1 ... 0 ............................ A= . 0 0 0 ... 1 −a0 −a1 −a2 . . . −an−1 Wir wissen bereits, daß das charakteristische Polynom von A gerade wieder p(λ) := n P j=0 aj λj ist und daß jeder Eigenwert von A die geometrische Vielfachheit 1 besitzt. 228 KAPITEL 28. LINEARE DIFFERENTIALGLEICHUNGEN Ist λ ein Eigenwert von A und v ein zugehöriger Eigenvektor, so lauten die Bestimmungsgleichungen (A − λE) v = 0 für v komponentenweise −λvi + vi+1 = 0, i = 1, . . . , n−1, und hieraus folgt v1 6= 0. Wir können also v normieren durch v1 = 1, und erhalten mit den Überlegungen aus Abschnitt 28.2: Ist λ eine k-fache Nullstelle von p(λ), so sind exp(λx) , x exp(λx) , . . . , xk−1 exp(λx) linear unabhängige Lösungen der homogenen Differentialgleichung (28.14). Ist λ = α + βi ∈ C \ IR eine nicht reelle Nullstelle von p, so erhält man (wie in Abschnitt 28.2) aus xj exp(λx) und xj exp(λ̄x) wieder die unabhängigen, reellen Lösungen 1 j x (exp(λx) + exp(λ̄x)) = xj eαx cos(βx), 2 Im (xj exp(λx)) = xj eαx sin(βx). Re (xj exp(λx)) = Damit erhält man insgesamt die folgende Vorschrift zur Konstruktion eines Fundamentalsystems von (28.14): Satz 28.25. Sind λ1 , . . . , λm die Nullstellen des charakteristischen Polynoms p(λ) := n P aj λj von (28.14), so erhält man auf folgende Weise ein Fundamentalsystem von j=0 (28.14) (i) Ist λk eine reelle Nullstelle der Vielfachheit rk , so setze man ykj = xj exp(λk x), j = 0, 1, . . . , rk − 1. (ii) Ist λk = αk + iβk eine nicht reelle Nullstelle von p der Vielfachheit rk , so setze man ykj = xj exp(αk x) cos(βk x) j = 0, 1, . . . , rk − 1. ỹkj = xj exp(αk x) sin(βk x) Beispiel 28.26. y (4) − y 00 − 2y 0 + 2y = 0 besitzt die charakteristische Gleichung p(λ) = λ4 − λ2 − 2λ + 2 mit der doppelten Nullstelle λ = 1 und den einfachen Nullstellen λ = −1 + i und λ = −1 − i. Ein reelles Fundamentalsystem ist daher gegeben durch y1 (x) = ex , y2 (x) = x ex , y3 (x) = e−x cos x, y4 (x) = e−x sin x. 2 28.4. LINEARE DGL MIT KONSTANTEN KOEFFIZIENTEN 229 Ist ein Fundamentalsystem von (28.14) bekannt, so kann man eine spezielle Lösung durch Variation der Konstanten bestimmen. Im Falle konstanter Koeffizienten ist häufig das Grundlösungsverfahren einfacher: Satz 28.27. Es sei w(x) die Lösung der Anfangswertaufgabe Lw = 0, w(k) (x0 ) = 0, k = 0, 1, . . . , n − 2, w(n−1) (x0 ) = 1. (28.15) Dann löst für jede stetige Funktion f yp (x) := Zx w(x − t + x0 ) f (t) dt x0 das inhomogene Problem (28.13). Definition 28.28. Die durch (28.15) definierte Funktion G(x, t) := w(x − t + x0 ) heißt Grundlösung oder Greensche Funktion. Beweis: Es gilt x d Z = w(x − t + x0 ) f (t) dt dx x yp0 (x) 0 = w(x − x + x0 ) f (x) + | {z =w(x0 )=0 } Zx w0 (x − t + x0 ) f (t) dt, x0 und durch Induktion yp(k) (x) = Zx w(k) (x − t + x0 ) f (t) dt, k = 0, 1, . . . , n − 1 x0 yp(n) (x) = w | (n−1) (x0 ) f (x) + {z } =1 und daher Lyp = f (x) + Zx X n x0 k=0 | Zx w(n) (x − t + x0 ) f (t) dt, x0 ak w(k) (x − t + x0 ) f (t) dt. {z =0 Beispiel 28.29. y 00 + 2y 0 + y = e−2x . } 230 KAPITEL 28. LINEARE DIFFERENTIALGLEICHUNGEN Dann ist die allgemeine Lösung des homogenen Problems yh = αe−x + βxe−x , und die Anfangsbedingungen w(0) = 0, w0 (0) = 1 liefern α = 0, β = 1, d.h. die Greensche Funktion ist w(x − t) = (x − t) et−x . Damit erhält man die spezielle Lösung Zx yp (x) = (x − t) et−x e−2t dt 0 −x = e Zx (x − t) e−t dt = e−2x + (x − 1) e−x . 0 2 Wir haben bereits in Kapitel 25 erwähnt, daß man für lineare Differentialgleichungen mit konstanten Koeffizienten bei gewissen rechten Seiten mit einem geeigneten Ansatz eine spezielle Lösung erhalten kann. Wir betrachten dieses Vorgehen, das auch Methode der unbestimmten Koeffizienten genannt wird, nun etwas genauer. Wir betrachten zunächst den Fall einer polynomialen rechten Seite: Ly := n X aj y (j) = j=0 Mit dem Ansatz y(x) := m X αk xk ∈ Πm . (28.16) k=0 m X βk xk , βk ∈ IR, k=0 erhält man m X m X n X dj k aj j (x ) Ly(x) = βk L(x ) = βk dx j=0 k=0 k=0 = m X k=0 k min(k,n) βk X aj j=0 k! xk−j (k − j)! m! βm a1 xm−1 (m − 1)! (m − 1)! m! βm−1 a1 + βm a2 xm−2 + . . . + βm−2 a0 + (m − 2)! (m − 2)! = βm a0 xm + βm−1 a0 + = = m min(k,n) X X (m − k + j)! k=0 m X (m − k)! j=0 αk xk = k=0 m X βm−k+j aj xm−k αm−k xm−k , k=0 und Koeffizientenvergleich liefert αm−k = min(k,n) X 1 (m − k + j)!βm−k+j aj . (m − k)! j=0 (28.17) 28.4. LINEARE DGL MIT KONSTANTEN KOEFFIZIENTEN 231 Ist a0 6= 0 (ist also y(x) ≡ 1 keine Lösung des homogenen Problems), so kann man diese Gleichungen nacheinander auflösen. Man erhält βm−k = min(k,n) X 1 1 αm−k − (m − k + j)!βm−k+j aj , k = 0, 1, . . . , m. a0 (m − k)! j=1 Beispiel 28.30. 2 X aj y (j) := y 00 + 2y 0 + 3y = 3x4 + 5x3 − 5x + 2 =: j=0 4 X αk xk k=0 Für den Ansatz y(x) := 4 X βk xk k=0 erhält man β4 = 1 1 α4 = · 3 = 1, a0 3 1 4! α3 − β4 a1 = −1, a0 3! 1 3! 4! β2 = α2 − β3 a1 − β4 a2 = −2, a0 2! 2! 1 2! 3! β1 = α1 − β2 a1 − β3 a2 = 3, a0 1! 1! 1 2! 1! β0 = α0 − β1 a1 − β2 a2 = 0, a0 0! 0! β3 = und damit die spezielle Lösung y(x) = x4 − x3 − 2x2 + 3x. 2 Gilt a0 = a1 = . . . = ar−1 = 0 und ar 6= 0 für ein r ≥ 1, so erhält man mit dem Ansatz y(x) = m+r X βk xk k=r wie vorher Ly = m+r X min(n,k) βk = m min(n,k) X X k=0 m X k=0 aj j=r k=r = X k! xk−j (k − j)! βm+r−k+j ar+j j=0 αm−k xm−k . (m + r − k + j)! m−k x (m − k)! 232 KAPITEL 28. LINEARE DIFFERENTIALGLEICHUNGEN Hieraus folgt min(k,n) X αm−k = βm+r−k+j ar+j j=0 (m + r − k + j)! , (m − k)! und durch Auflösen für k = 0, 1, . . . , m βm+r−k = min(k,n) X 1 (m − k)!αm−k − βm+r−k+j ar+j (m + r − k + j)! . (m + r − k)!ar j=1 Beispiel 28.31. y (4) − 2y 000 + 3y 00 = 90x4 − 60x3 + 270x + 30 Der Ansatz y(x) = 6 X βk xk k=2 liefert β6 = β5 = β4 = β3 = β2 = 1 4!α4 = 1, a2 6! 1 3!α3 − 6!β6 a3 = 3, a2 5! 1 2!α2 − 5!β5 a3 − 6!β6 a4 = 0, a2 4! 1 1!α1 − 4!β4 a3 − 5!β5 a4 = −5, a2 3! 1 0!α0 − 3!β3 a3 − 4!β4 a4 = −5, a2 2! und damit die partikuläre Lösung y(x) = x6 + 3x5 − 5x3 − 5x2 . 2 Wir betrachten nun den Fall Ly := n X aj y (j) = eλx j=0 m X αk xk =: eλx p(x). k=0 Mit der Substitution y(x) =: u(x)eλx führen wir diesen Fall auf den bereits benadelten zurück. Wegen y (j) (x) = j X j k k=0 u(k) (x) · λj−k eλx (28.18) 28.4. LINEARE DGL MIT KONSTANTEN KOEFFIZIENTEN erhält man Ly(x) = n X j X j aj j=0 k m X u(k) (x)λj−k eλx = eλx k=0 233 αk xk , k=0 und dies ist äquivalent L̃u := n X aj j=0 Der Ansatz m X u(x) := j X j k λj−k u(k) = k=0 m X αk xk . k=0 βk xk , m X d.h. y(x) = eλx k=0 βk xk , (28.19) k=0 führt genau dann zum Ziel, wenn der Koeffizient in L̃ bei u(0) von Null verschieden ist, d.h. wenn n X aj j 0 λj = j=0 n X aj λj 6= 0. j=0 Wir erhalten also genau dann eine partikuläre Lösung mit dem Ansatz (28.19), wenn y(x) = eλx keine Lösung des homogenen Problems Ly = 0 ist. Der Koeffizient bei u(r) in L̃ lautet n X aj rj λ j−r = n X j=r j=r aj 1 j! λj−r = p(r) (λ). r!(j − r)! r! Gilt p(λ) = p0 (λ) = . . . = p(r−1) (λ) = 0, p(r) (λ) 6= 0 für eon r ≥ 1, sind also eλx , xeλx , . . . , xr−1 eλx Lösungen des homogenen Systems Ly = 0 und löst xr eλx dieses System nicht, so liefert der Ansatz u(x) = m+r X βj xj , bzw. y(x) = eλx j=r m+r X βj xj , j=r eine Lösung des inhomogenen Problems L̃u(x) = p(x), bzw. Ly(x) = eλx m X j=0 Beispiel 28.32. y 00 − 2y 0 + y = xex . Die allgemeine Lösung des homogenen Problems ist y(x) = γ1 ex + γ2 xex . αj xj . 234 KAPITEL 28. LINEARE DIFFERENTIALGLEICHUNGEN Daher ist der angemessene Ansatz für eine partikuläre Lösung y(x) = (β2 x2 + β3 x3 )ex . Hiermit erhält man 1 y(x) = x3 ex . 6 2 Die Fälle Ly = p(x)eλx sin ωx und Ly = p(x)eλx cos ωx kann man wegen eλx cos ωx = eλx Re eiωx = Re e(λ+iω)x und eλx sin ωx = eλx Im eiωx = Im e(λ+iω)x auf den eben behandelten Fall zurückführen. Ist λ + iω keine Nullstelle des charakteristischen Polynoms χ(µ) = n X aj µ j von Ly := n X aj y (j) , j=0 j=0 sind also eλx cos ωx und eλx sin ωx keine Lösungen des homogenen Problems Ly = 0, so führt der Ansatz m X y(x) = eλx cos ωx βk xk + sin ωx k=0 m X γk xk k=0 auf eine partikuläre Lösung von Ly(x) = eλx sin ωx m X αk xk bzw. Ly(x) = eλx cos ωx m X αk xk . k=0 k=0 Dabei genügt es nicht, im ersten Fall nur λx y(x) = e sin ωx m X βk xk k=0 als Ansatz zu wählen und die cos-Terme fortzulassen. Für den Fall, daß λ + iω eine r-fache Nullstelle des charakteristischen Polynoms ist und damit xν eλx cos ωx und xν eλx sin ωx für ν = 0, 1, . . . , r − 1 das homogene Problem lösen, führt der Ansatz y(x) = xr eλx cos ωx m X k=0 zum Ziel. βk xk + sin ωx m X k=0 γk xk 28.4. LINEARE DGL MIT KONSTANTEN KOEFFIZIENTEN 235 Beispiel 28.33. y 00 + 2y 0 + 2y = sin x. Da µ = i keine Nullstelle des charakteristischen Polynoms χ(µ) = µ2 + 2µ + 2 ist, verwenden wir den Ansatz y(x) = β cos x + γ sin x. Hiermit erhält man die partikuläre Lösung 1 y(x) = (sin x − 2 cos x). 5 2 Beispiel 28.34. y 00 + 2y 0 + 2y = e−x sin x. µ = −1 + i ist eine einfache Nullstelle des charakteristischen Polynoms χ(µ) = µ2 + 2µ + 2. Mit dem Ansatz y(x) = βxe−x cos x + γxe−x sin x erhält man die partikuläre Lösung 1 y(x) = − xe−x cos x. 2 2 Kapitel 29 Asymptotisches Verhalten, Stabilität 29.1 Einleitende Beispiele, Definition Ein System werde beschrieben durch die autonome Differentialgleichung y 0 = f (y). (29.1) Gilt f (y 0 ) = 0 für ein y 0 ∈ IRn , so ist y(x) ≡ y 0 eine Lösung von (29.1). Ein solches y 0 heißt stationäre Lösung oder Gleichgewichtspunkt von (29.1). Wir stören nun den Anfangswert zu z 0 = y 0 + ε und fragen, ob das System sich nicht zu weit von der Ruhelage entfernt, ob also die Lösung der Anfangswertaufgabe y 0 = f (y), y(0) = z 0 für alle x > 0 definiert ist und ky(x) − y 0 k unter einer vorgegebenen Schranke bleibt. Wenn dies für alle genügend kleinen Störungen z 0 −y 0 richtig ist, so werden wir y 0 als stabilen Zustand des Systems bezeichnen. Beispiel 29.1. y 0 = λy besitzt die stationäre Lösung y(x) ≡ 0. Die Anfangswertaufgabe y 0 = λy, y(0) = ε besitzt die Lösung y(x) = ε eαx (cos βx + i sin βx), λ =: α + iβ. Für α > 0 gilt |y(x)| = |ε| eαx → ∞ für x → ∞ und daher ist y ≡ 0 nicht stabil. Für α = 0 gilt |y(x)| = |ε| für alle x > 0. Der Zustand entfernt sich nicht weiter vom stationären Zustand, y ≡ 0 ist also stabil. Für α < 0 gilt |y(x)| < |eps| für alle x > 0. Der stationäre Zustand y(x) ≡ 0 ist also stabil und wegen y(x) → 0 für x → ∞ kehrt das gestörte System sogar in den stationären Zustand zurück. 2 29.1. EINLEITENDE BEISPIELE, DEFINITION 237 Definition 29.2. Abbildung 29.1 Stabilität Es sei y(x), 0 ≤ x ≤ ∞, eine Lösung des Systems y 0 = f (x, y). (29.2) Dabei sei f in Sα := {(x, z) : x ≥ 0, ky(x) − zk < α} für ein α > 0 definiert und stetig. Die Lösung y(x) heißt stabil, wenn es zu jedem ε > 0 ein δ > 0 gibt, so daß alle Lösungen z(x) von z 0 = f (x, z) mit kz(0) − y(0)k < δ für alle x ≥ 0 existieren und der Ungleichung ky(x) − z(x)k < ε für x ∈ [0, ∞) genügen. Die Lösung y von (29.2) heißt asymptotisch stabil, wenn sie stabil ist und wenn ein δ > 0 existiert, so daß für alle Lösungen z(x) von z 0 = f (x, z) mit ky(0) − z(0)k < δ gilt lim ky(x) − z(x)k = 0. x→∞ Die Lösung heißt instabil, wenn sie nicht stabil ist. Im Beispiel 29.1. mit y 0 = λy ist die stationäre Lösung y(x) ≡ 0 im Falle Re λ < 0 asymptotisch stabil, im Falle Re λ = 0 stabil, aber nicht saymptotisch stabil, und im Falle Re λ > 0 instabil. 238 KAPITEL 29. ASYMPTOTISCHES VERHALTEN, STABILITÄT In der Definition der asymptotischen Stabilität ist es wichtig, die Stabilität von y vorauszusetzen. Es gibt Lösungen von Differentialgleichungen, die attraktiv sind (d.h. benachbarte Lösungen werden angezogen), ohne stabil zu sein. Das folgende Beispiel 29.3. zeigt einen besonders pathologischen Fall: Beispiel 29.3. Abbildung 29.2 y10 = Skizze zum Beispiel 29.3. y12 (y2 − y1 ) + y25 , (y12 + y22 )(1 + (y12 + y22 )2 ) y20 = y22 (y2 − 2y1 ) (y12 + y22 )(1 + (y12 + y22 )2 ) Abbildung 29.2 enthält ein Phasendiagramm der Lösung, d.h. es werden die Lösungen zu verschiedenen Anfangswerten als Kurven in der (y1 , y2 )-Ebene dargestellt, wobei die unabhängige Variable x als Parameter dient. 0 . Es gibt jedoch Lösungen, 0 Alle Lösungen streben in den stationären Punkt 29.2. STABILITÄT LINEARER SYSTEME 239 0 0 die in der Nähe von starten (z.B. in , |α| klein) und zunächst sehr weit 0 α 0 weggetragen werden. ist also nicht stabil (siehe Abbildung 29.2). 2 0 29.2 Stabilität linearer Systeme Ist y 0 eine stationäre Lösung der autonomen Differentialgleichung y 0 = f (y) und ist f differenzierbar in einer Umgebung von y 0 , so erhält man aus dem Taylorschen Satz y 0 = f (y 0 ) + f 0 (y 0 )(y − y 0 ) + · · · . Vernachlässigt man das Restglied, so erhält man wegen f (y 0 ) = 0 mit der konstanten Matrix A := f 0 (y 0 ) y 0 ≈ A(y − y 0 ) oder mit z(x) := y(x) − y 0 z 0 ≈ Az. Es ist daher naheliegend, daß das asymptotische Verhalten der Lösungen y(x) in der Nähe von y 0 durch das asymptotische Verhalten der Lösung w(x) des linearisierten Differentialgleichungssystems w0 = Aw mit konstanten Koeffizienten in der Nähe von w ≡ 0 bestimmt ist. Wir untersuchen daher zunächst die Stabilität der trivialen Lösung w ≡ 0 für lineare Systeme mit konstanten Koeffizienten. Satz 29.4. Genügen alle Eigenwerte λi der konstanten (reellen oder komplexen) Matrix A der Ungleichung Re λj < α, so ist keAx k ≤ C eαx für x ≥ 0 mit einer geeigneten positiven Konstante C. Beweis: Es genügt zu zeigen, daß für jede Lösung y eines Fundamentalsystems von y 0 = Ay die Ungleichung ky(x)k ≤ C eαx für alle x ≥ 0 mit einem C > 0 gilt, da die Spalten von eAx Lösungen sind. Nach Abschnitt 28.2 besitzt y 0 = Ay n linear unabhängige Lösungen der Form y(x) = p(x) eλx , wobei λ ein Eigenwert von A ist und die Komponenten pj (x) von p Polynome vom Höchstgrad n − 1 sind. Ist nun α − Re λ =: ε > 0 so gilt sicher |pj (x)| ≤ cj eεx für alle x ≥ 0, und damit kp(x) eλx k ≤ C eεx eRe λx = C eαx . 240 KAPITEL 29. ASYMPTOTISCHES VERHALTEN, STABILITÄT Satz 29.5. Es sei A konstant. Dann streben genau dann alle Lösungen von y 0 = Ay (29.3) gegen Null für x → ∞, wenn Re λj < 0 für alle Eigenwerte λj von A gilt. Beweis: Alle Lösungen y von (29.3) lassen sich darstellen als y(x) = eAx y(0). Gilt also Re λj < 0 für alle Eigenwerte λj von A, so folgt aus Satz 29.4. mit α := 1 max Re λj < 0 2 j ky(x)k ≤ keAx k · ky(0)k ≤ Cky(0)k eαx → 0 für x → ∞. Gibt es einen Eigenwert λ = α + βi von A mit α ≥ 0, so gibt es dazu eine Lösung y(x) = v eλx (wobei v ∈ Cn einen Eigenvektor von A zum Eigenwert λ bezeichnet) und hierfür gilt ky(x)k = |eλx | · kvk = eαx kvk 6→ 0 für x → ∞. Insbesondere folgt aus dem Beweis von Satz 29.5., daß die triviale Lösung y(x) ≡ 0 von (29.3) asymptotisch stabil ist, falls Re λj < 0, j = 1, . . . , n, gilt. Eine vollständige Beschreibung des asymptotischen Verhaltens für Systeme mit konstanten Koeffizienten liefert Satz 29.6. Satz 29.6. (Stabilitätssatz) Es seien λ1 , . . . , λm (m ≤ n) die Eigenwerte von A und γ = max{Re λj : j = 1, . . . , m}. Dann ist die triviale Lösung y(x) ≡ 0 der Differentialgleichung y 0 = Ay (i) im Falle γ < 0 asymptotisch stabil, (ii) im Falle γ > 0 instabil (iii) und im Falle γ = 0 stabil aber nicht asymptotisch stabil, wenn für alle Eigenwerte λ von A mit Re λ = 0 geometrische und algebraische Vielfachheit gleich sind, sonst instabil. Beweis: Der Fall γ < 0 wurde in Satz 29.5. behandelt. Im Falle γ > 0 sei λ ein Eigenwert von A mit Re λ = γ und v ein zugehöriger Eigenvektor. Dann ist y(x) := σ eλx v für alle σ ∈ IR eine Lösung von (29.3) mit 29.2. STABILITÄT LINEARER SYSTEME 241 ky(x)k = |σ| kvk eγx → ∞ für x → ∞, aber ky(0)k = |σ| · kvk kann durch Wahl von σ beliebig klein gemacht werden. Ist γ = 0 und für einen Eigenwert λ = iβ die algebraische Vielfachheit größer als die geometrische Vielfachheit, so gibt es eine Lösung y(x) = σ(v 1 + xv 2 ) eiβx , v 1 , v 2 ∈ Cn , wobei ky(x)k = |σ| kv 1 + xv 2 k ≥ |σ| (xkv 2 k − kv 1 k) → ∞ für x → ∞ gilt und ky(0)k = |σ| · kv 1 k wieder beliebig klein gemacht werden kann. Ist γ = 0 und für alle Eigenwerte λ = iβ die algebraische und geometrische Vielfachheit gleich, so haben alle Lösungen von (29.3) die Gestalt m X pj (x) eλj x , j=1 wobei die Polynome pj (x), die zu den Eigenwerten des Typs iβ gehören, konstant sind. Hieraus liest man die Stabilität von y(x) ≡ 0 unmittelbar ab. Wir diskutieren nun das Verhalten von ebenen linearen Systemen mit konstanten Koeffizienten. Es sei A ∈ IR(2,2) mit den Eigenwerten λ1 , λ2 und den zugehörigen Eigenvektoren (bzw. Hauptvektor) v 1 , v 2 . Es seien zunächst λ1 , λ2 ∈ IR. Dann kann man mit z(x) := S −1 y(x), S := (v 1 , v 2 ), das System (29.3) transformieren auf die Gestalt z 0 = J z, wobei (γ(λj ) bezeichnet die geometrische Vielfachheit von λj ) λ1 0 J = , falls λ1 6= λ2 oder λ1 = λ2 und γ(λ1 ) = 2 0 λ2 λ1 1 J = , falls λ1 = λ2 und γ(λ1 ) = 1. 0 λ1 Die folgenden Phasendiagramme können bei ebenen Systemen auftreten: (29.4) 242 KAPITEL 29. ASYMPTOTISCHES VERHALTEN, STABILITÄT 0 Knotenpunkt. Kehrt 0 man die Ungleichheitszeichen um, so hat man in den Skizzen alle Pfeile umzukehren. In allen drei Fällen heißt der stationäre Punkt y 0 = Auch dann ist y 0 ein Knotenpunkt. 29.2. STABILITÄT LINEARER SYSTEME 243 244 29.3 KAPITEL 29. ASYMPTOTISCHES VERHALTEN, STABILITÄT Störungen linearer Systeme Wir betrachten nun das Differentialgleichungssystem y 0 = Ay + g(x, y) (29.5) mit einer konstanten Matrix A. Satz 29.7. (Stabilitätssatz) Die Funktion g(x, z) sei für x ≥ 0, kzk ≤ α (α > 0) erklärt und stetig, und es gelte lim kzk→0 kg(x, z)k =0 kzk gleichmäßig für x ∈ [0, ∞). (29.6) Es gelte Re λj < 0 für alle Eigenwerte λj von A. Dann ist die Lösung y(x) ≡ 0 der Differentialgleichung (29.5) asymptotisch stabil. Bemerkung 29.8. Aus (29.6) folgt insbesondere g(x, 0) ≡ 0, so daß y(x) ≡ 0 2 eine Lösung von (29.5) ist. Beweis: Nach Satz 29.4. gibt es Konstanten β > 0 und C > 1, so daß Re λj < −β und keAx k ≤ C e−βx für alle x ≥ 0 gilt. Ferner existiert wegen (29.6) ein δ ∈ (0, α), so daß kg(x, z)k ≤ β kzk 2C (29.7) für alle x ≥ 0 und alle z mit kzk ≤ δ gilt. Die Behauptung von Satz 29.7. ist bewiesen, wenn wir zeigen: Aus ky(0)k ≤ ε < βx δ folgt ky(x)k ≤ C ε e− 2 . C Zunächst kann man jede Lösung der inhomogenen Differentialgleichung y 0 = Ay + f nach Abschnitt 28.2 darstellen in der Form y(x) = eAx y(0) + Zx 0 eA(x−s) f (s) ds. (29.8) 29.3. STÖRUNGEN LINEARER SYSTEME 245 Ist nun y eine Lösung von (29.5), so genügt y der nichtlinearen Integralgleichung y(x) = eAx y(0) + Zx eA(x−t) g(t, y(t)) dt, 0 und damit folgt aus der Ungleichung (29.7) −βx ky(x)k ≤ ky(0)k C e + Zx C e−β(x−t) · 0 β ky(t)k dt 2C (29.9) jedenfalls solange (29.7) gilt, d.h. solange ky(x)k ≤ δ gilt. Sei nun y(x) eine Lösung von (29.5) mit ky(0)k < ε und φ(x) := ky(x)k eβx . Dann folgt aus (29.9) (solange ky(x)k ≤ δ gilt) x βZ φ(x) ≤ ε C + φ(t) dt. 2 0 Das Lemma von Gronwall (Satz 27.12.) liefert hiermit βx φ(x) ≤ C ε e 2 , d.h. ky(x)k ≤ C ε e− βx 2 < δ. Hieraus sieht man, daß ky(x)k den Wert δ für positive x nicht annehmen kann, daß also die Ungleichung (29.7) für alle x ≥ 0 gilt. Als negatives Resultat kann man Satz 29.9. zeigen. Eine Beweis, der wesentlich komplizierter ist als der von Satz 29.7., findet man in ??????? Satz 29.9. (Instabilitätssatz) Die Voraussetzungen aus Satz 29.7. über g seien erfüllt, und es existiere ein Eigenwert λ von A mit Re λ > 0. Dann ist die triviale Lösung y(x) ≡ 0 der Differentialgleichung (29.5) instabil. Wir wenden Satz 29.7. und Satz 29.9. auf das autonome System y 0 = f (y) (29.10) an; die rechte Seite hänge also nicht explizit von x ab. Ist f (y 0 ) = 0, ist also y(x) ≡ y 0 eine stationäre Lösung von (29.10), so kann man durch die Transformation z := y−y 0 (29.10) in ein System überführen, das z(x) ≡ 0 als stationäre Lösung hat. Wir können also f (0) = 0 voraussetzen. 246 KAPITEL 29. ASYMPTOTISCHES VERHALTEN, STABILITÄT Ist f differenzierbar in y = 0, so ist (29.10) mit A = f 0 (0) und g(y) := f (y) − Ay äquivalent der Differentialgleichung y 0 = Ay + g(y), (29.11) und g erfüllt die Voraussetzungen von Satz 29.7. Nach Satz 29.7. und Satz 29.9. ist also die Ruhelage y(x) ≡ 0 asymptotisch stabil, wenn alle Eigenwerte von A negativen Realteil haben, und instabil, wenn ein Eigenwert von A mit positivem Realteil existiert. Im Grenzfall max Re λj = 0 ist keine allgemeine Aussage möglich. j Beispiel 29.10. y 0 = αy + βy 3 , α, β ∈ IR. Dann ist die an der Stelle y(x) ≡ 0 linearisierte Gleichung y 0 = αy, und y(x) ≡ 0 ist für α > 0 instabil und für α < 0 asymptotisch stabil. Für α = 0, β 6= 0 ist die Lösung von y 0 = βy 3 , y(0) = y0 y(x) = sign (y0 ) q 1 y02 1 . − 2βx Ist β < 0, so ist y(x) für alle x > 0 definiert mit y(x) → 0 für x → ∞. Ist β > 0, so ist y(x) nur in (0, β −1 y0−2 ) definiert. Es ist im Falle α = 0 also y(x) ≡ 0 für β < 0 asymptotisch stabil, für β > 0 instabil und für β = 0 stabil. 29.4 2 Die Methode von Ljapunov Ein anderer Zugang zur Stabilitätsuntersuchung, durch den auch Beispiel 29.10. erfaßt wird, geht auf Ljapunov zurück. Es ist anschaulich klar, daß ein Gleichgewichtszustand eines mechanischen Systems stabil ist, wenn jede Entfernung aus dem Gleichgewichtszustand die Energie des Systems zunehmen läßt. Die Ljapunovsche Theorie ist eine Verallgemeinerung dieser Überlegung. Wir betrachten eine skalare C 1 -Funktion (verallgemeinerte Energie) V : IRn ⊃ Kr (0) → IR mit V (0) = 0 und V (y) > 0 für alle y ∈ Kr (0) \ {0}. Die “Energie des Systems” nimmt längs jeder Lösung der Differentialgleichung y 0 = f (y) nicht zu, wenn gilt d V (y(x)) = h∇V (y(x)), y 0 (x)i = h∇V (y(x)), f (y(x))i ≤ 0. dx Wir definieren daher 29.4. DIE METHODE VON LJAPUNOV 247 Definition 29.11. Eine C 1 -Funktion V : IRn ⊃ Kr (0) → IR mit V (0) = 0, V (y) > 0 für y ∈ Kr (0) \ {0}, heißt Ljapunov Funktion des Systems y 0 = f (y), f (0) = 0, falls gilt h∇V (y), f (y)i ≤ 0 für alle y ∈ Kr (0). Beispiel 29.12. y 0 = f (y) : = αy + βy 3 , α, β ∈ IR. Mit V (y) : = y 2 gilt h∇V (y(x)), f (y(x))i = 2αy 2 + 2βy 4 . V ist also sowohl im Falle α = 0, β ≤ 0 als auch im Falle α < 0, β ∈ IR eine Ljapunov 2 Funktion. Genau in diesen Fällen ist y(x) ≡ 0 stabil. Beispiel 29.13. y10 = y2 + y22 − y13 , Dann ist V (y) := y20 = −y1 − y1 y2 . 1 2 (y + y22 ) eine Ljapunov Funktion, denn 2 1 y + y22 − y13 h∇V (y), f (y)i = (y1 , y2 ) 2 −y1 − y1 y2 ! = −y14 ≤ 0. Für das (bei y = 0)linearisierte Problem z10 = z2 , z20 = −z1 hat die Koeffizienten0 1 matrix A = die Eigenwerte λ1/2 = ±i, und daher kann über die Stabilität −1 0 des stationären Punktes 0 mit den bisherigen Sätzen nicht entschieden werden. Die asymptotische Stabilität folgt aus Satz 29.14. 2 Satz 29.14. (Ljapunov) Existiert eine Ljapunov Funktion V für das System y 0 = f (y) mit f (0) = 0 in einer Umgebung Kr (0) des Nullpunktes, so ist der stationäre Zustand y 0 = 0 stabil. Gilt zusätzlich ϕ(y) < 0 für die Funktion ϕ(y) := h∇V (y), f (y)i für alle y ∈ Kr (0) \ {0}, so ist y 0 = 0 asymptotisch stabil. Beweis: Wir wählen eine Umgebung des Nullpunktes Kε (0), ε < r. Dann ist m := min{V (y) : kyk2 = ε} > 0. Wegen V (0) = 0 und der Stetigkeit von V gibt es ein δ > 0 mit V (y) < m für alle y ∈ Kδ (0). 248 KAPITEL 29. ASYMPTOTISCHES VERHALTEN, STABILITÄT Es sei nun y eine Lösung von (29.10) mit y(0) ∈ Kδ (0). Dann folgt aus d V (y(x)) = h∇V (y(x)), f (y(x))i ≤ 0, dx daß V längs der Lösung y monoton nicht steigt, d.h. V (y(x)) ≤ V (y(x)) < m, und aus V (z) ≥ m für alle z mit kzk2 = ε folgt , daß die Lösung y in Kε (0) verbleibt. y(x) ≡ 0 ist also stabil (In der nebenstehenden Skizze bleibt die Lösung für jeden Startwert y 0 ∈ Kδ (0) in dem schraffierten Bereich. Abbildung 29.3 Gilt ϕ(y) < 0 für alle y ∈ Kr (0) \ {0}, so fällt V (y(x)) sogar streng monoton längs der Lösung y und wegen V (0) = 0 existiert x→∞ lim V (y(x)) =: η ≥ 0. Gilt η > 0, so gibt es eine Umgebung Kα (0) von 0 mit V (y) < η für alle y ∈ Kα (0). Es sei nun µ := max{ϕ(y) : α ≤ kyk2 ≤ ε} < 0. Dann folgt V (y(x)) − V (y(0)) = Zx 0 d V (y(x)) dx ≤ µx → −∞ dx für x → ∞ im Widerspruch zur Positivität von V , und hieraus erhält man die asymptotische Stabilität von y 0 = 0. Auf ähnliche Weise erhält man Satz 29.15. (Instabilitätssatz) Es sei V : IRn ⊃ Kr (0) → IR stetig differenzierbar mit V (0) = 0, und es gelte φ(y) := h∇V (y), f (y)i > 0 für alle y ∈ Kr (0) \ {0}. Gibt es in jeder Kugel Kδ (0) ein y δ mit V (y δ ) > 0, so ist der stationäre Zustand y 0 ≡ 0 instabil. Beweis: Wir haben zu zeigen, daß es zu jedem ε ∈ (0, r) und jedem δ ∈ (0, ε) einen Anfangswert y δ ∈ Kδ (0) mit der folgenden Eigenschaft gibt:Die Lösung y(x) der Anfangswertaufgabe y 0 = f (y), y(0) = y 0 verläßt die Kugel Kε (0), d.h. es gibt ein x > 0 mit ky(x)k > ε. Wir wählen y δ ∈ Kδ (0) mit V (y δ ) > 0 und hierzu M := {y : kyk ≤ r, V (y) ≥ V (y δ )}, sowie m := min{φ(y) : y ∈ M }. 29.4. DIE METHODE VON LJAPUNOV 249 Dann gilt für alle x ≥ 0 mit y(x) ∈ Kr (0) V (y(x)) − V (y δ ) = Zx φ(y(t)) dt ≥ 0, 0 d.h. y(x) ∈ M , und daher V (y(x))−V (y δ ) ≥ mx. Es gilt also für ein x > 0 entweder ky(x)k > r > ε oder V (y(x)) ≥ V (y δ ) + mx > max{V (y) : y ∈ Kε (0)}, in jedem Fall also y(x) ∈ / Kε (0). Beispiel 29.16. Die van der Pol Gleichung y 00 + (ay 2 − b) y 0 + y = 0, a, b > 0 ist äquivalent dem System erster Ordnung z10 = z2 z20 = −(a z12 − b) z2 − z1 . Für V (z) := z12 + z22 − α z1 z2 , α > 0, gilt h∇V (z), f (z)i = α z12 + (2b − α) z22 + z1 z2 (−αb + α a z12 − 2 a z1 z2 ), 1 d.h. mit β := (−α b + α a z12 − 2 a z1 z2 ) ist 2 α β T h∇V (z), f (z)i = z z =: z T M z, β 2b − α und da bei genügend kleiner Wahl von α und r die Matrix M positiv definit für alle 2 kzk ≤ r ist, ist die Nullösung instabil. Daß man die asymptotische Stabilität in Satz 29.6. auch mit Hilfe der Theorie von Ljapunov erhalten kann, zeigt Satz 29.17. Satz 29.17. Es sei A ∈ IR(n,n) , und es sei L ∈ IR(n,n) eine symmetrische und positiv definite Matrix. Dann sind die folgenden Aussagen äquivalent: (i) Alle Eigenwerte von A haben negativen Realteil. (ii) Es existiert genau eine positiv definite Lösung P ∈ IR(n,n) der Gleichung AT P + P A = −L. (29.12) (iii) Es existiert eine quadratische Funktion V : IRn → IR+ mit V (0) = 0, V (y) 6= 0 für alle y ∈ IRn \ {0} und h∇V (y), Ayi < 0 für alle y ∈ IRn \ {0}. 250 KAPITEL 29. ASYMPTOTISCHES VERHALTEN, STABILITÄT Beweis: (i)⇒(ii): Es sei α < 0 mit α > max{Re λ : λ ist Eigenwert von A} und hiermit P := Z∞ T eA t LeAt dt. 0 Nach Satz 29.4. gibt es ein M > 0 mit keAx k ≤ M eαx für alle x ≥ 0, und daher folgt Zx Zx T 2 A t A t e2αt dt Le dt ≤ kLkM e 0 0 1 1 = kLkM 2 e2αx − 1 ≤ kLkM 2 2α 2|α| für alle x ≥ 0. Es ist also P = P T definiert. P ist positiv definit, denn für ξ ∈ IRn \ {0} gilt mit y(x) := eAx ξ T ξ Pξ = Z∞ y(t)T Ly(t) dt > 0. 0 P löst die Gleichung (29.12), denn T A P + PA = Z∞ T T AT eA t LeAt + eA t LeAt A dt 0 = Z∞ 0 = d AT t At e Le dt dt AT t LeAt − L = −L. lim e x→∞ P ist eindeutig, denn ist P̃ eine weitere Lösung von (29.12), so gilt P = − Z∞ T eA t (AT P̃ + P̃ A)eAt dt 0 = − Z∞ 0 d AT t At e P̃ e dt = P̃ . dt (ii)⇒(iii): Es sei V (y) := y T P y. Dann gilt für alle y ∈ IRn \ {0} h∇V, Ayi = 2y T P Ay = y T P Ay + y T AT P y = −y T Ly < 0. (iii)⇒(i) folgt aus Satz 29.14. und Satz 29.4.. Kapitel 30 Numerische Verfahren für Anfangswertaufgaben 30.1 Das Eulersche Polygonzugverfahren Wir betrachten die Anfangswertaufgabe y 0 = f (x, y), y(a) = y0 , (30.1) wobei die Lösung y im Intervall [a, b] gesucht ist. Dabei kann y auch vektorwertig, also (30.1) ein Differentialgleichungssystem erster Ordnung sein. Es sei a = x0 < x1 < x2 < . . . < xN =: b eine (nicht notwendig äquidistante) Zerlegung von [a, b]. Da f (xn , y(xn )) gerade die Steigung y 0 (xn ) der gesuchten Lösung y(x) von (30.1) ist, gilt näherungsweise (bei nicht zu großer Schrittweite hn := xn+1 − xn ) 1 (y(xn+1 ) − y(xn )) ≈ f (xn , y(xn )), hn d.h. y(xn+1 ) = y(xn ) + hn f (xn , y(xn )) + εn . (30.2) 252 KAPITEL 30. NUM. VERFAHREN FÜR ANFANGSWERTAUFGABEN Abbildung 30.1 Knotenpunkte und Näherungswerte Wir vernachlässigen nun in (30.2) den Fehler εn . Dann wird die entstehende Gleichung nicht mehr durch die Lösung y(xn ) von (30.1) an den Knoten xn erfüllt, sondern nur noch durch Näherungswerte yn für y(xn ). Wir bestimmen also die yn (ausgehend von y0 ) durch das Verfahren yn+1 = yn + hn fn , n = 0, 1, . . . , N − 1, (30.3) wobei hn := xn+1 − xn und fn := f (xn , yn ) ist. (30.3) heißt das Eulersche Polygonzugverfahren. 5 1 Beispiel 30.1. y 0 = y 2 , y(0.8) = , x ∈ [0.8, 1.8] besitzt die Lösung y(x) = . 6 2−x 1 1 1 Mit den äquidistanten Schrittweiten h = , und liefert das Verfahren 100 200 400 (30.3) Näherungen, deren Fehler in der Tabelle 30.1 enthalten sind. Man liest aus der Tabelle ab, daß der Fehler bei Halbierung der Schrittweite ebenfalls 2 halbiert ab. Wir wollen nun im allgemeinen Fall den entstandenen Fehler abschätzen. Dazu schreiben wir das Polygonzugverfahren in der Form yn+1 − yn − hn fn = 0. (30.4) 30.1. DAS EULERSCHE POLYGONZUGVERFAHREN 253 Tabelle 30.1: Fehlertabelle von Beispiel 30.1. x 0.80 0.90 1.00 1.10 1.20 1.30 1.40 1.50 1.60 1.70 1.80 N = 100 0.00E + 0 −7.09E − 4 −1.79E − 3 −3.49E − 3 −6.20E − 3 −1.07E − 2 −1.86E − 2 −3.35E − 2 −6.48E − 2 −1.41E − 1 −3.90E − 1 N = 200 0.00E + 0 −3.57E − 4 −9.04E − 4 −1.76E − 3 −3.13E − 3 −5.43E − 3 −9.47E − 3 −1.71E − 2 −3.33E − 2 −7.38E − 2 −2.08E − 1 N = 400 0.00E + 0 −1.79E − 4 −4.54E − 4 −8.84E − 4 −1.57E − 3 −2.73E − 3 −4.77E − 3 −8.66E − 3 −1.69E − 2 −3.77E − 2 −1.08E − 1 Setzt man hier an Stelle der Werte yn die exakten Werte y(xn ) ein, so erhält man (vgl. (30.2)) y(xn+1 ) − y(xn ) − hn f (xn , y(xn )) =: εn . (30.5) εn heißt der lokale Fehler (auch Abbruchfehler) des Verfahrens. Subtrahiert man die Gleichung (30.4) von (30.5), so folgt y(xn+1 ) − yn+1 = y(xn ) − yn + hn (f (xn , y(xn )) − f (xn , yn )) + εn . (30.6) Wir setzen voraus, daß f auf [a, b] × IR einer Lipschitz Bedingung bzgl. y genügt: |f (x, y) − f (x, z)| ≤ L|y − z| für alle y, z ∈ IR und alle x ∈ [a, b]. Dann folgt aus (30.6) für den Fehler δn := |y(xn ) − yn | an der Stelle xn δn+1 ≤ (1 + Lhn ) δn + εn . (30.7) Es sei nun h := max n=1,...,N hn und |εn | ≤ ε(h). Dann folgt aus (30.7) durch Induktion δn ≤ (1 + Lh)n δ0 + ε (1 + (1 + Lh) + · · · + (1 + Lh)n−1 ) 1 − (1 + Lh)n = (1 + Lh)n δ0 + ε . 1 − (1 + Lh) Wir nehmen an, daß die betrachteten Zerlegungen quasi-gleichmäßig sind, daß es also ein K > 0 gibt mit h · N (h) ≤ K, wobei N (h) die Anzahl der Intervalle bei der Zerlegung mit der maximalen Schrittweite h bezeichnet. Dann folgt δn ≤ 1 + LK n n δ0 + ε 1+ LK n n Lh −1 . 254 KAPITEL 30. NUM. VERFAHREN FÜR ANFANGSWERTAUFGABEN LK n von unten gegen eLK konvergiert, folgt n eLK − 1 ε(h) · . δn ≤ eLK δ0 + L h Sieht man von Rundungsfehlern ab, so ist δ0 = 0, also Da 1 + eLK − 1 ε(h) · . (30.8) n L h δ(h) heißt der globale Fehler des Verfahrens. Gilt lim δ(h) = 0, konvergieren δ(h) := max δn ≤ h→0+0 also die Näherungswerte für h gegen 0 gegen die Werte der exakten Lösung, so heißt das Verfahren konvergent. Nach dem obigen Überlegungen konvergiert das Polygonzugverfahren, wenn für den lokalen Fehler ε(h) = o(h) gilt. In diesem Fall heißt das Verfahren konsistent. Gilt insbesondere mit einer Konstante C für den lokalen Fehler ε(h) ≤ C · hp+1 für ein p > 0, so heißt p die Ordnung des Verfahrens. Wir weisen nun die Konsistenz des Polygonzugverfahrens nach. Ist y ∈ C 2 [a, b] (dies gilt z.B., wenn f stetig differenzierbar ist), so gilt nach dem Taylorschen Satz εn = y(xn + hn ) − y(xn ) − hn f (xn , y(xn )) 1 = y(xn ) + hn y 0 (xn ) + h2n y 00 (xn + θhn ) − y(xn ) − hn y 0 (xn ), 2 und daher 1 ε(h) ≤ max |y 00 (x)| h2 =: C h2 . 2 a≤x≤b Das Polygonzugverfahren ist also von der Ordnung p = 1, und wegen (30.8) gilt eLK − 1 1 · max |y 00 (x)| h =: C̃ h. δ(h) ≤ L 2 a≤x≤b Dieses Fehlerverhalten zeigte sich auch in unserem numerischen Beispiel 30.1. Wie im Falle der Quadratur wird man in der Praxis nicht mit konstanter Schrittweite rechnen, sondern die Schrittweite dem Lösungsverhalten anpassen. Dabei schätzt man wie bei den adaptiven Quadraturformeln den lokalen Fehler mit Hilfe einer zweiten Formel. Wir verwenden hierzu zwei Schritte des Polygonzugverfahrens mit halber Schrittweite: h f (xn , yn ) 2 h h = ỹn+ 1 + f (xn + , ỹn+ 1 ) 2 2 2 2 h h h h = yn + f (xn , yn ) + f (xn + , yn + f (xn , yn )). 2 2 2 2 ỹn+ 1 = yn + 2 ỹn+1 30.1. DAS EULERSCHE POLYGONZUGVERFAHREN 255 Für den lokalen Fehler gilt mit der Lösung z(x) der Anfangswertaufgabe y 0 = f (x, y), y(xn ) = yn (im Falle z ∈ C 3 [a, b]) nach dem Taylorschen Satz ε(xn , h) = z(xn + h) − (yn + h f (xn , yn )) 1 = z(xn ) + h z 0 (xn ) + h2 z 00 (xn ) + O(h3 ) − z(xn ) − h z 0 (xn ) 2 1 2 00 3 = h z (xn ) + O(h ) (30.9) 2 und genauso für die zusammengesetzte Formel ε̃(xn , h) = z(xn + h) − ỹn+1 h 1 2 00 h z (xn ) + O(h3 ) − yn − f (xn , yn ) 2 2 h h ∂ h ∂ − (f (xn , yn ) + f (xn , yn ) + f (xn , yn ) f (xn , yn ) + O(h2 )) 2 2 ∂x 2 ∂y 1 2 00 = h z (xn ) + O(h3 ) 4 = yn + h f (xn , yn ) + wegen d ∂ ∂ f (x, z(x)) = f (x, z(x)) + f (x, z(x)) z 0 (x). dx ∂x ∂y Durch Subtraktion dieser beiden Formeln erhält man z 00 (x) = ỹn+1 − yn+1 = 1 2 00 h z (xn ) + O(h3 ), 4 und Einsetzen in (30.9) unter Vernachlässigung des O(h3 )-Therms liefert die Schätzung für den lokalen Fehler ε(xn , h) ≈ φ(xn , h) := 2(ỹn+1 − yn+1 ). (30.10) Zugleich erhält man mit ŷn+1 := 2ỹn+1 − yn+1 eine Näherung für y(xn + h) mit dem lokalen Fehler ε̂(xn , h) = 2 ε̃(xn , h) − ε(xn , h) = O(h3 ), also ein Verfahren der Ordnung 2. Die Formel (30.10) verwenden wir nun zur Schrittweitensteuerung: Wir geben uns eine Toleranz τ > 0 vor und bestimmen die Schrittweite in jedem Schritt so, daß lokaler Fehler ≈ τ (30.11) gilt. Approximieren wir ε(xn , h) durch ε(xn , h) ≈ γh2 , so kann man γ durch einen Probeschritt der Länge H schätzen: γ≈ 1 ε(xn , H). H2 256 KAPITEL 30. NUM. VERFAHREN FÜR ANFANGSWERTAUFGABEN Die optimale Wahl der Schrittweite ist dann nach (30.11) τ = |ε(xn , h)| ≈ |γ| · h2 ≈ h2 |ε(xn ; H)|, H2 d.h. s h=H τ . |ε(xn ; H)| Der folgende PASCAL-Programmteil verwendet diese Schrittweitenkontrolle bei gegebenen Startwerten x und y und gegebener Probeschrittlänge h: z := f(x,y); REPEAT y1 := y + h*z; y2 := y + h/2*z; y2 := y2 + h/2 * f(x+h/2,y2); phi := 2 * (y2 - y1); hneu := h * SQRT (tol / ABS(phi)); IF h>2*hneu THEN h := hneu ELSE BEGIN x := x + h; y := 2*y2 - y1; z := f(x,y); h := hneu END UNTIL <Intervallende erreicht>; { * } { ** } Bemerkung 30.2. Ist h > 2 ∗ hneu , so weicht die optimale Schrittweite hneu von der benutzten Schrittweite h stark ab. Es muß sogar befürchtet werden, daß die asymptotische Entwicklung des lokalen Fehlers für dieses h nicht gilt. Der Schritt wird daher verworfen und mit hneu wiederholt. 2 Bemerkung 30.3. Nach unserer Herleitung müßte in der Zeile {∗∗} y := y1 stehen. Da man aber ohne Mehrkosten die bessere Näherung y = 2y2 − y1 (Formel der Ordnung 2) zur Verfügung hat, verwendet man diese. Unsere Fehlerschätzung ist damit in der Regel pessimistisch. 2 30.2. EINSCHRITTVERFAHREN 257 Beispiel 30.4. Mit τ = 10−4 5 y 0 = y 2 , y(0.8) = . 6 benötigt man 524 Funktionsauswertungen für die numerische Lösung im Intervall [0.8, 1.8]. Der maximale Fehler ist dabei 2.06 · 10−3 , die maximale benutzte Schrittweite ist 1.3 · 10−2 und die minimale Schrittweite ist 9.0 · 10−4 . Um dieselbe Genauigkeit mit äquidistanter Schrittweite zu erreichen, benötigt man 2 2155 Funktionsauswertungen. 30.2 Einschrittverfahren Das behandelte Polygonzugverfahren ist die einfachste einer großen Klasse von Methoden, den Einschrittverfahren, bei denen die Näherung yn+1 an dem neuen Punkt xn+1 := xn + hn allein aus der Näherung yn an der Stelle xn und der Schrittweite hn berechnet wird. Einschrittverfahren haben also die folgende Gestalt yn+1 = yn + hn Φ(xn , yn , hn ) (30.12) mit einer Verfahrensfunktion Φ. Um die Güte von Einschrittverfahren zu beurteilen, führen wir die folgenden Begriffe ein: Es sei z(x) die Lösung der Anfangswertaufgabe z 0 = f (x, z(x)), z(xn ) = yn . Dann heißt ε(h) := z(xn + h) − yn − h Φ(xn , yn , h) der lokale Fehler des durch (30.12) definierten Verfahrens. Das Verfahren (30.12) heißt konsistent, falls ε(h) = o(h) gilt, es heißt von der Ordnung p, wenn ε(h) = O(hp+1 ) gilt. Wie im Falle des Polygonzugverfahrens kann man zeigen: Erfüllt Φ eine Lipschitz Bedingung bzgl. y in [a, b] × IR (diese erbt sie in der Regel von der rechten Seite f ), ist das Einschrittverfahren konsistent von der Ordnung p und sind die betrachteten Schrittweitenfolgen quasi–gleichmäßig (d.h. h · N (h) ≤ K, wobei h die maximale Schrittweite bezeichnet und N (h) die Anzahl der Intervalle bei der Zerlegung mit maximaler Schrittweite h), so gilt für den globalen Fehler |δ(h)| = max n=1,...,N (h) |yn − y(xn )| ≤ 1 LK (e − 1) C hp . L 258 KAPITEL 30. NUM. VERFAHREN FÜR ANFANGSWERTAUFGABEN Wie beim Übergang von Quadraturformeln zu summierten Quadraturformeln verliert man also beim Übergang vom lokalen zum globalen Fehler eine h-Potenz. Beispiel 30.5. Polygonzugverfahren: Φ(x, y, h) = f (x, y). 2 Beispiel 30.6. (Verbessertes Polygonzugverfahren) Wir haben dieses Verfahren bereits durch Extrapolation aus dem Polygonzugverh fahren mit den Schrittweiten h und hergeleitet: 2 yn+1 = yn + hn f xn + hn hn , yn + f (xn , yn ) . 2 2 Geometrisch kann man dieses Verfahren so interpretieren: Es wird zunächst eine hn hn Schätzung yn+ 1 = yn + f (xn , yn ) für y xn + ermittelt, und die hiermit 2 2 2 hn hn berechnete Näherung f xn + , yn+ 1 ≈ y 0 xn + für die Steigung von y im 2 2 2 ganzen Intervall [xn , xn + hn ] verwendet. 2 Abbildung 30.2 Verbessertes Polygonzugverfahren; Verfahren von Heun Beispiel 30.7. (Verfahren von Heun) Man verwendet den Mittelwert zweier Steigungen k1 := f (xn , yn ), k2 := f (xn + hn , yn + hn k1 ) und setzt hiermit k1 + k2 . 2 Mit dem Taylorschen Satz kann man zeigen, daß für den lokalen Fehler yn+1 = yn + hn h ε(h) = z(xn + h) − yn − (f (xn , yn ) + f (xn + h, yn + h f (xn , yn ))) = O(h3 ) 2 30.2. EINSCHRITTVERFAHREN 259 gilt, daß das Verfahren von Heun also wie das verbesserte Polygonzugverfahren die 2 Ordnung 2 besitzt. Beispiel 30.8. (Runge-Kutta-Verfahren) Dies sind Verallgemeinerungen der drei bisher betrachteten Verfahren des folgenden Typs: k1 := f (xn , yn ) kj := f (xn + αj hn , yn + hn j−1 X βj` k` ), j = 2, . . . , s (30.13) `=1 yn+1 := yn + hn s X γj kj . j=1 Die Koeffizienten αj , βj` , γj werden dabei so gewählt, daß das Verfahren möglichst hohe Ordnung hat. Gibt man die Ordnung p vor und bestimmt dazu die Stufenzahl s des Runge-KuttaVerfahrens minimal, so gilt der folgende Zusammenhang p 1 2 3 4 5 6 7 8 9 10 s 1 2 3 4 6 7 9 10 11 12. Runge-Kutta-Verfahren gibt man am übersichtlichsten durch ein Koeffiziententableau an: 0 α2 β21 α3 β31 β32 .. . αs βs1 βs2 . . . βs,s−1 γ1 γ2 ... γs−1 γs . Die uns bekannten Verfahren der Ordnung 2 kann man damit so schreiben 0 0 1 1 1 2 1 2 1 2 1 2 0 1 Verfahren von Heun verbessertes Polygonzugverfahren. Am bekanntesten ist wohl das klassische Runge-Kutta-Verfahren (1895) 0 1 2 1 2 1 2 0 1 2 1 0 0 1 1 6 1 3 1 3 1 . 6 260 KAPITEL 30. NUM. VERFAHREN FÜR ANFANGSWERTAUFGABEN Ausführlich geschrieben lautet dieses k1 = f (xn , yn ) hn hn k 2 = f x n + , yn + k1 2 2 hn hn k 3 = f x n + , yn + k2 2 2 k4 = f (xn + hn , yn + hn k3 ) k1 + 2k2 + 2k3 + k4 yn+1 = yn + hn . 6 Mit dem Taylorschen Satz zeigt man (nach langer Rechnung), daß das klassische 2 Runge-Kutta-Verfahren die Ordnung 4 hat. Eine Schrittweitensteuerung kann man für die Runge-Kutta-Verfahren prinzipiell wie für das Polygonzugverfahren durchführen. Um den Fehler zu schätzen, kann man zwei Schritte mit der halben Schrittweite ausführen. Im Falle der klassischen Runge-Kutta-Verfahren hat man dabei die Funktion f an 7 zusätzlichen Punkten auszuwerten, so daß man in jedem Schritt insgesamt 11 Funktionsauswertungen benötigt. Mit wesentlich weniger Aufwand kommt man bei den eingebetteten RungeKutta-Formeln aus: Die Idee ist — ähnlich wie bei den Kronrod-Formeln zur Quadratur — von einer Runge-Kutta-Formel der Stufe s mit den Zuwächsen k1 , . . . , ks und der Ordnung p auszugehen und hierzu bei erhöhter Stufenzahl σ weitere ks+1 , . . . , kσ zu bestimmen, so daß die Formel ỹn+1 = yn + hn s X σ X γ̃j kj + j=1 γ̃j kj j=s+1 eine höhere Ordnung q als die Ausgangsformel hat. Dann gilt für die lokalen Fehler ε(h) = C hp+1 + O(hp+2 ) und ε̃(h) = O(hq+1 ) = O(hp+2 ), d.h. ỹn+1 − yn+1 = C hp+1 + O(hp+2 ), und hiermit kann man bei vorgegebener Toleranz die optimale Schrittweite wie vorher schätzen. Eines der ältesten (brauchbaren) Formelpaare mit den Ordnungen p = 2 und q = 3 geht auf Fehlberg zurück. 0 1 1 1 2 1 4 1 2 1 6 p=2 q=3 1 4 1 2 1 6 2 . 3 30.3. MEHRSCHRITTVERFAHREN 261 Das heute gebräulichste Formelpaar der Ordnungen 4 und 5 wurde von Dormand und Prince angegeben. 0 1 5 1 5 3 10 3 40 9 40 4 5 44 45 56 − 15 32 9 8 9 19372 6561 − 25360 2187 64448 6561 − 212 729 1 9017 3168 − 355 33 46732 5247 49 176 5103 − 18656 1 35 384 0 500 1113 125 192 − 2187 6784 11 84 p=5 35 384 0 500 1113 125 192 − 2187 6784 11 84 0 q=4 5179 57600 0 7571 16695 393 640 92097 − 339200 187 2100 1 . 40 Beispiel 30.9. 5 y 0 = y 2 , y(0.8) = . 6 1 im Intervall [0.8, 1.8] mit der Toleranz τ = 1e − 4 für 2−x den lokalen Fehler zu approximieren, benötigt man mit den Fehlberg Formeln 122 Um die Lösung y(x) = Funktionsauswertungen. Der maximale absolute Fehler ist dabei 2 · 10−4 . Mit dem Formelpaar von Dobrin und Prince benötigt man 67 Funktionsauswertungen, um 2 dieselbe Genauigkeit zu erreichen. 30.3 Mehrschrittverfahren Ein weiterer, häufig benutzter Verfahrenstyp zur numerischen Lösung der Anfangswertaufgabe (30.1) sind die linearen Mehrschrittverfahren, bei denen man zur Berechnung der Näherung yn+k die bereits ermittelten Näherungen yn+k−1 , yn+k−2 , . . . , yn verwendet. Dazu macht man den Ansatz k X ν=0 aν yn+ν = h k X bν fn+ν (30.14) ν=0 mit fn+ν := f (xn+ν , yn+ν ), wobei ak 6= 0 vorausgesetzt wird. Ist bk 6= 0, so kommt yn+k auf beiden Seiten von (30.14) vor, und (30.14) heißt implizites k-Schritt Verfahren, ist bk = 0, so heißt (30.14) explizites k-Schritt Verfahren. 262 KAPITEL 30. NUM. VERFAHREN FÜR ANFANGSWERTAUFGABEN Offenbar ist der erste Wert, den man mit (30.14) berechnen kann, yk . Neben dem gegebenen Wert y0 müssen also zunächst Näherungen y1 , . . . , yk−1 für y(x1 ), . . . , y(xk−1 ) zur Verfügung gestellt werden. Diese können z.B. mit einem Runge-Kutta-Verfahren berechnet werden. Wegen ak 6= 0 können wir o.B.d.A. ak = 1 annehmen. Wir bestimmen die übrigen aν , bν nun so, daß (30.14) zu einem brauchbaren Verfahren wird. Den lokalen Fehler von (30.14) erhält man wieder, indem man die exakte Lösung y(x) von (30.1) in (30.14) einsetzt: εn := k X aν y(xn + νh) − h ν=0 k X bν y 0 (xn + νh). (30.15) ν=0 Ist y (m + 1)-mal differenzierbar, so liefert der Taylorsche Satz εn = k X aν m X y (µ) (xn ) ν=0 − k X µ! µ=0 bν ν µ hµ + m−1 X y (µ+1) (xn ) ν=0 µ! µ=0 1 y (m+1) (xn + θν νh) ν m+1 hm+1 (m + 1)! ν µ hµ+1 + 1 (m+1) y (xn + θ̂ν νh) ν m hm+1 . m! Damit das Verfahren konsistent ist, müssen sich die Glieder mit dem Faktor h0 und mit dem Faktor h1 jeweils gegenseitig aufheben, d.h. es muß gelten k X aν = 0, ν=0 k X (νaν − bν ) = 0. (30.16) ν=0 Das Nächstliegende ist nun, die aν , bν so zu bestimmen, daß in εn möglichst hohe Potenzen von h abgeglichen werden. Dies führt zu einem linearen (wegen ak = 1 inhomogenen) Gleichungssystem. Für k = 2 erhält man = −1 (siehe (30.16)) b1 − b2 = −2 (siehe (30.16)) a1 − 2b1 − 4b2 = −4 a1 − 3b1 − 12b2 = −8 a1 − 4b1 − 32b2 = −16 a0 + a1 a1 − b 0 − 1 4 1 mit der Lösung a0 = −1, a1 = 0, b0 = , b1 = , b2 = . 3 3 3 Man erhält also das implizite Verfahren der Ordnung 4: yn+2 = yn + h (fn + 4fn+1 + fn+2 ). 3 (30.17) 30.3. MEHRSCHRITTVERFAHREN 263 Tabelle 30.2: AWA mit Anfangsfehler 10−15 (y ≡ 1) n 0 1 2 3 4 5 6 7 8 9 10 yn 1.00000000000000000 1.00000000000000111 0.99999999999999556 1.00000000000002331 0.99999999999988454 1.00000000000057843 0.99999999999710898 1.00000000001445621 0.99999999992772004 1.00000000036140091 0.99999999819299656 n 16 17 18 19 20 21 22 .. . 34 35 yn 0.99997176556842504 1.00014117215787590 0.99929413921062160 1.00352930394689310 0.98235348026553560 1.08823259867232314 0.55883700663838543 ....................... −1.077058079E + 0008 5.385290456E + 0008 Verlangt man, um die Auflösung einer nichtlinearen Gleichung (bzw. eines nichtlinearen Gleichungssystems) in yn+2 in jedem Schritt zu vermeiden, b2 = 0, d.h. ein explizites Verfahren, so kann man nur die ersten vier Gleichungen von (30.17) erfüllen. Lösung hiervon ist a0 = −5, a1 = 4, b0 = 2, b1 = 4, und man erhält das explizite Verfahren der Ordnung 3: yn+2 = −4yn+1 + 5yn + 2h(fn + 2fn+1 ). (30.18) Wendet man (30.18) auf die Anfangswertaufgabe y 0 = 0, y(0) = 1 mit dem (z.B. durch Rundungsfehler verfälschten) Anfangsfeld y0 = 1, y1 = 1 + 10−15 an, so erhält man Tabelle 30.2. Kleinste Anfangsfehler schaukeln sich also auf und machen das Verfahren trotz der Ordnung 3 völlig unbrauchbar. Die Fehlerordnung allein ist also kein geeignetes Mittel zur Bewertung eines Mehrschrittverfahrens. Für den Fall f (x, y) ≡ 0 lautet (30.18) yn+2 + 4yn+1 − 5yn = 0. (30.19) Dies ist eine lineare homogene Differenzengleichung mit konstanten Koeffizienten. Der Ansatz yn = λn für eine Lösung von (30.19) führt auf die Bedingung λn+2 + 4λn+1 − 5λn = 0 d.h. λ2 + 4λ − 5 = 0 mit den Lösungen λ1 = 1, λ2 = −5. Da (30.19) linear und homogen ist, ist auch yn = Aλn1 + Bλn2 = A + B(−5)n , A, B ∈ IR, 264 KAPITEL 30. NUM. VERFAHREN FÜR ANFANGSWERTAUFGABEN eine Lösung (sogar die allgemeine Lösung). Die Konstanten A und B kann man aus dem Anfangsfeld y0 und y1 bestimmen. Man erhält 1 1 yn = (5y0 + y1 ) + (−5)n (y0 − y1 ). 6 6 Der zweite Term hiervon führt dazu, daß sich die Fehler (bei alternierendem Vorzeichen) aufschaukeln. Im allgemeinen Fall (30.14) hätte man statt (30.19) für f (x, y) ≡ 0 die Differenzengleichung k P ν=0 aν yn+ν = 0 mit der charakteristischen Gleichung ρ(λ) := k X aν λν = 0. ν=0 Sind λ1 , . . . , λr die verschiedenen Nullstellen von ρ mit den Vielfachheiten m1 , . . . , mr , so sind alle Lösungen von n X aν yn+ν = 0 ν=0 Linearkombinationen von λnj , nλnj , . . . , nmj −1 λnj , j = 1, . . . , r (vgl. die allgemeine Lösung der homogenen Differentialgleichung mit konstanten Koeffizienten in Abschnitt 28.4). Fehler im Anfangsfeld y0 , . . . , yk−1 werden daher nicht verstärkt, wenn |λj | ≤ 1 für alle Nullstellen λj von ρ gilt und die Nullstellen mit |λj | = 1 einfach sind. In diesem Fall heißt das Verfahren (30.14) stabil. Wegen der Konsistenzbedingung ist stets λ = 1 eine Nullstelle von ρ. Gilt |λj | < 1 für alle anderen Nullstellen λj von ρ, so heißt das Verfahren stark stabil. Die obigen Überlegungen zeigen, daß die Stabilität neben der Konsistenz die Mindestanforderung an ein k-Schritt Verfahren ist. Umgekehrt kann man zeigen, daß konsistente, stabile Verfahren konvergieren. Fordert man in (30.17) neben b2 = 0 (Explizitheit), daß ρ(λ) die Nullstellen λ1 = 1 (Konsistenz) und λ2 = 0 (um die Stabilität zu erzwingen) besitzt, so kann man nur die ersten drei Gleichungen von (30.17) erfüllen und erhält das explizite Verfahren der Ordnung 2: yn+2 = yn+1 + h (−fn + 3fn+1 ). 2 Wir geben nun einen Weg an, wie man stark stabile Mehrschrittverfahren konstruieren kann. 30.3. MEHRSCHRITTVERFAHREN 265 Für die Lösung y der Anfangswertaufgabe (30.1) gilt y(xn+1 ) − y(xn ) = xZn+1 0 y (t) dt = xZn+1 xn f (t, y(t)) dt. (30.20) xn Wir ersetzen daher bei gegebenen Näherungen yj ≈ y(xj ), j = n, n−1, . . . , n−k +1, und damit bekannten Näherungen fj := f (xj , yj ) ≈ f (xj , y(xj )) = y 0 (xj ), j = n, n − 1, . . . , n − k + 1, die Funktion y 0 im Integranden durch ihr Interpolationspolynom p ∈ Πk−1 : p(xj ) = fj , j = n, n − 1, . . . , n − k + 1, und berechnen die neue Näherung gemäß yn+1 = yn + xZn+1 p(t) dt. xn An der Lagrangeschen Integrationsformel p(x) = k−1 X fn−j · `j (x), `j (x) := j=0 k−1 Y . k−1 Y (x − xn−i ) erkennt man, daß yn+1 = yn + k−1 X (xn−j − xn−i ), i=0 i6=j i=0 i6=j fn−j j=0 xZn+1 `j (t) dt xn tatsächlich die Gestalt eines k–Schrittverfahrens hat. Mit der Variablentransformation t := xn + h · s erhält man xZn+1 `j (t) dt = h · xn Z1 k−1 Y 0 . k−1 Y (i + s) i=0 i6=j (i − j) ds =: αj . i=0 i6=j Die Integrale über das Interpolationspolynom lassen sich also schreiben als xZn+1 p(t) dt = h · xn k−1 X αj fn−j , j=0 wobei die Koeffizienten αj unabhängig von den yj und von den speziellen Knoten xj und der Schrittweite h sind, und daher in Tafeln bereitgestellt werden können. Die Mehrstellenformel erhält damit die Gestalt yn+1 = yn + h · k−1 X j=0 αj fn−j . 266 KAPITEL 30. NUM. VERFAHREN FÜR ANFANGSWERTAUFGABEN Das charakteristische Polynom ist ρ(λ) = λk − λk−1 mit der einfachen Nullstelle λ = 1 und der (k − 1)-fachen Nullstelle 0. Die Mehrstellenformel ist als stark stabil. So konstruierte Mehrstellenformeln heißen Adams–Bashforth Verfahren. Sie sind explizit und aus der Fehlerdarstellung des Interpolationspolynoms erhält man, daß ihre Ordnung k ist. Die ersten Adams–Bashforth Formeln sind: k=2 yn+1 = yn + 0.5h(3fn − fn−1 ) k=3 yn+1 = yn + h(23fn − 16fn−1 + 5fn−2 )/12 k=4 yn+1 = yn + h(55fn − 59fn−1 + 37fn−2 − 9fn−3 )/24. Nachteil der Adams–Bashforth Formeln ist, daß bei ihrer Konstruktion das Interpolationspolynom p im Intervall [xn , xn+1 ] verwendet wird, während die Interpolationsknoten außerhalb dieses Intervalls liegen. Wir wissen bereits, daß der Fehler eines Interpolationspolynoms außerhalb des kleinsten Intervalls [xn−k+1 , xn ], das alle Knoten enthält, sehr schnell anwächst. Es ist daher naheliegend, die Funktion y 0 in (30.20) durch das Interpolationspolynom p ∈ Πk : p(xj ) = f (xj , yj ), j = n + 1, n, n − 1, . . . , n − k + 1 zu ersetzen. Wie eben kann man das Verfahren schreiben als yn+1 = yn + h k X βj fn+1−j j=0 mit xn+1 k k .Y 1 Z Y βj := (t − xn+1−i ) (xn+1−j − xn+1−i ) dt. h x i=0 i=0 n i6=j i6=j Diese Verfahren heißen Adams–Moulton Verfahren. Sie sind wie die Adams– Bashforth Verfahren stark stabil und haben die Ordnung k + 1 (Beachten Sie, daß der Grad des Interpolationspolynoms hier k ist, beim Adams–Bashforth Verfahren aber nur k − 1). Die Adams–Moulton Verfahren haben wesentlich bessere Konvergenzeigenschaften als die Adams–Bashforth Verfahren gleicher Ordnung. Nachteilig ist, daß sie implizit sind, man also in jedem Schritt ein nichtlineares Gleichungssystem zu lösen hat. 30.4. STEIFE PROBLEME 267 Man kombiniert daher beide Verfahren zu einem Prädiktor-Korrektor-Verfahren: Sind bereits Näherungen yj = y(xj ), j = 0, . . . , n, bekannt (n ≥ k), so bestimme man dem Adams–Bashforth Verfahren der Ordnung k + 1 eine vorläufige Näherung ỹ0 := yn + h k X αj fn−j j=0 für y(xn+1 ) und verbessere diese iterativ unter Benutzung der Adams–Moulton Formel der Ordnung k + 1: ỹi+1 = yn + h β0 f (xn+1 , ỹi ) + k X βj fn+1−j , i = 0, 1, . . . . j=1 Erfüllt f eine Lipschitz Bedingung und ist h genügend klein gewählt, so ist diese Iteration konvergent. In der Regel genügen ein oder zwei Verbesserungsschritte (sonst ist die Schrittweite h zu groß). Das so gefundene ỹ1 oder ỹ2 wird als yn+1 gewählt und es wird der nächste Prädiktor-Korrektor-Schritt ausgeführt. Vorteil der Mehrschrittverfahren ist, daß auch bei größeren Ordnungen nur in jedem Schritt eine Funktionsauswertung von f im expliziten Fall bzw. 2 oder 3 Auswertungen beim Prädiktor-Korrektor-Verfahren benötigt werden, während beim Einschrittverfahren die Zahl der Funktionsauswertungen bei Steigerung der Ordnung sehr rasch wächst. Nachteil der Mehrschrittverfahren ist, daß die Schrittweitensteuerung komplizierter als beim Einschrittverfahren ist. Man muß – entweder nicht äquidistante Knoten xn , xn−1 , . . . , xn−k+1 verwenden und kann dann die αj bzw. βj nicht einer Tabelle entnehmen, sondern muß sie nach jeder Veränderung der Schrittweite während der nicht äquidistanten Phase neu berechnen – oder bei geänderter Schrittweite h̃ Näherung für y(xn − j · h̃) aus einem Interpolationspolynom berechnen. 30.4 Steife Probleme Es gibt Differentialgleichungen mit Lösungen, zu deren Approximation bei Anwendung expliziter Verfahren viel kleinere Schrittweiten benötigt werden, als man erwartet. 268 KAPITEL 30. NUM. VERFAHREN FÜR ANFANGSWERTAUFGABEN Tabelle 30.3: Fehler für λ = 1 x 0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00 Polygonzug 0.00E + 0 4.99E − 4 1.00E − 3 1.52E − 3 2.04E − 3 2.59E − 3 3.17E − 3 3.77E − 3 4.41E − 3 5.10E − 3 5.83E − 3 verb. Polygonzug 0.00E + 0 8.35E − 7 1.68E − 6 2.54E − 6 3.42E − 6 4.34E − 6 5.31E − 6 6.32E − 6 7.40E − 6 8.55E − 6 9.79E − 6 Runge–Kutta 0.00E + 0 1.60E − 11 3.21E − 11 4.85E − 11 6.55E − 11 8.30E − 11 1.01E − 10 1.21E − 10 1.42E − 10 1.64E − 10 1.87E − 10 Tabelle 30.4: Näherungen für λ = 1000 x 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.10 Polygonzug 1.00E + 0 9.90E − 1 9.79E − 1 9.64E − 1 8.88E − 1 1.49E − 1 −7.88E + 0 −9.61E + 1 −1.07E + 3 −1.17E + 4 −1.29E + 5 verb. Polygonzug 1.00E + 0 9.90E − 1 9.73E − 1 4.99E − 1 −2.78E + 1 −1.76E + 3 −1.07E + 5 −6.53E + 6 −3.99E + 8 −2.43E + 10 −1.48E + 12 Runge–Kutta 1.00E + 0 9.89E − 1 3.09E − 1 −4.31E + 2 −2.79E + 5 −1.80E + 8 −1.16E + 11 −7.46E + 13 −4.80E + 16 −3.10E + 19 −1.99E + 22 Beispiel 30.10. Die Anfangswertaufgabe y 0 = −λ(y − e−x ) − e−x , y(0) = 1 (30.21) besitzt für alle λ ∈ IR die eindeutige Lösung y(x) = e−x . Tabelle 30.3 und Tabelle 30.4 enthalten die Näherungslösungen bei konstanter Schrittweite h = 0.01 für das Polygonzugverfahren, das verbesserte Polygonzugverfahren und das klassische Runge–Kutta Verfahren für die Parameter λ = 1 und λ = 1000. 30.4. STEIFE PROBLEME 269 Abbildung 30.3 Lösungen für λ = 1 Abbildung 30.4 Lösungen für λ = 20 Abbildung 30.3 und Abbildung 30.4 zeigen die Lösungen der Anfangswertaufgaben y 0 = −λ(y − e−x ) − e−x , y(x0 ) = y0 für verschiedene Werte von x0 und y0 für λ = 1 und λ = 20. Ist y0 6= e−x0 , so konvergiert für λ = 20 die Lösung y(x; x0 , y0 ) = (y0 − e−x0 )eλ(x−x0 ) + e−x sehr rasch (und für λ = 1000 noch sehr viel rascher) gegen die quasi stationäre Lösung ỹ(x) = e−x , und die dem Betrage nach sehr große Steigung y 0 (x0 ; x0 , y0 ) = λ(y0 − e−x0 ) − e−x0 führt zu sehr großen Fehlern, die sich aufschaukeln. 2 270 KAPITEL 30. NUM. VERFAHREN FÜR ANFANGSWERTAUFGABEN Wendet man das Eulersche Polygonzugverfahren auf die Testgleichung y 0 = λy, λ < 0, (30.22) an, so erhält man bei konstanter Schrittweite h > 0 yn+1 = yn + hλyn , und daher yn+1 = (1 + hλ)n y0 . Für |1 + hλ| > 1 explodiert die numerische Lösung yn , und zwar ist dieses Auschaukeln um so rascher, je kleiner λ ist, je schneller die Lösung der Anfangswertaufgabe also abklingt. Das Mindeste, was man von einem Verfahren erwarten muß, ist aber, daß die numerische Lösung bei nicht zu kleinen Schrittweiten ebenfalls abklingt. Das einfachste Verfahren, dessen numerische Lösung der Testgleichung (30.22) bei annehmbaren Schrittweiten das Abklingverhalten der Lösung der Anfangswertaufgabe reproduziert, ist das implizite Euler Verfahren y n+1 = y n + hf (xn+1 , y n+1 ). Mit ihm erhält man für (30.22) yn+1 = yn + hλyn+1 , d.h. yn+1 = 1 n y0 → 0 für n → ∞ 1 − hλ für jede Schrittweite h > 0. Man geht also einen linearen Schritt mit der Steigung weiter, die dort herrscht, wo man hinkommt (vgl. Abbildung 30.5). Der Preis, den man für dieses verbesserte Stabilitätsverhalten zu zahlen hat, ist, daß man im allgemeinen Fall in jedem Schritt ein nichtlineares Gleichungssystem F (y n+1 ) = y n+1 − y n − hf (xn+1 , y n+1 ) = 0 zu lösen hat. Dies kann man z.B. mit dem Newton Verfahren mit dem Startwert y n tun. 30.4. STEIFE PROBLEME 271 Abbildung 30.5 implizites Euler Verfahren Die Testgleichung (30.22) ist aussagekräftig für allgemeinere Systeme, denn ist die Matrix A ∈ IR(n,n) in dem linearen System y 0 = Ay + g (30.23) diagonalisierbar und gilt X −1 AX = Λ = diag {λ1 , . . . , λn } mit einer regulären Matrix X, so erhält man mit der Variablentransformation z := X −1 y z 0 = X −1 y 0 = X −1 AXX −1 y + X −1 g = Λz + X −1 g =: Λz + g̃, d.h. das entkoppelte Systeme zj0 = λj zj + g̃j , j = 1, . . . , n. (30.24) Wendet man auf das System (30.23) ein Mehrschrittverfahren m X αj y k−j + h j=0 m X βj (Ay k−j + g k−j ) = 0 j=0 an, so ist dieses mit z i := X −1 y i äquivalent zu m X αj z k−j +h j=0 m X βj (Λz k−j + g̃ k−j ) = 0, j=0 d.h. zu dem Mehrschrittverfahren m X j=0 αj zk−j + hλi m X j=0 βj (zk−j + g̃i,k−j ) = 0, i = 1, . . . , n, 272 KAPITEL 30. NUM. VERFAHREN FÜR ANFANGSWERTAUFGABEN für die skalaren Gleichungen (30.24). Lösungen der zugehörigen homogenen Differenzengleichung m X αj zk−j + hλ j=0 m X βj (zk−j ) = 0 j=0 sind (bei beliebigem Anfangsfeld y0 , y1 , . . . , ym−1 ) genau dann beschränkt, wenn alle Nullstellen des charakteristischen Polynoms m X (αj + (hλ)βj )µj = 0 j=0 dem Betrage nach kleiner als 1 sind und Nullstellen auf dem Einheitskreis einfach sind. Dies ist eine Bedingung, die nur von z := h · λ abhängt, wobei wir z ∈ C zulassen müssen, da die reelle Matrix A auch komplexe Nullstellen haben kann. Wendet man das explizite Runge–Kutta Verfahren (30.13) auf die Testgleichung (30.22) an, so erhält man k1 := λyn kj := λ yn + h j−1 X βj` k` , j = 2, . . . , s, `=1 yn+1 := yn + h s X γj kj . j=1 Setzt man die kj nacheinander ein, so erhält man yn+1 = r(hλ)yn mit r(z) = 1 + z s X j=1 γs + z 2 s j−1 X X j=1 k=1 γj βjk + z 3 s j−1 X X γj βjk βk` + . . . ∈ Πs , j=1 k,`=1 und die Folge {yn } ist offenbar beschränkt, wenn |r(z)| ≤ 1 gilt. Wir definieren daher Definition 30.11. Das Stabilitätsgebiet S ⊂ C eines Verfahrens ist die Menge aller z := hλ ∈ C, so daß für alle Startwerte die erzeugte Folge {yn } mit der Schrittweite h für die Testgleichung (30.22) beschränkt ist. 30.4. STEIFE PROBLEME 273 Abbildung 30.6 Stabilitätsgebiete “Verbesserter Polygonzug”/“Runge–Kutta” Beispiel 30.12. Für das (explizite) Polygonzugverfahren ist das Stabilitätsgebiet Sexpliziter Euler = {z ∈ C : |1 + z| ≤ 1}, für das implizite Euler Verfahren Simpliziter Euler = {z ∈ C : |1 − z| ≥ 1}. 2 Beispiel 30.13. Wendet man das verbesserte Polygonzugverfahren auf die Testgleichung an, so erhält man 1 1 yn+1 = yn + hλ yn + hλyn = 1 + (hλ) + (hλ)2 yn . 2 2 Es ist also 1 r(z) = 1 + z + z 2 . 2 Für das Verfahren von Heun erhält man dieselbe Funktion r. Das Stabilitätsgebiet S = {z ∈ C : |r(z)| ≤ 1} ist in Abbildung 30.6 dargestellt. Für das klassische Runge–Kutta Verfahren erhält man 1 1 1 r(z) = 1 + z + z 2 + z 3 + z 4 . 2 6 24 Auch hierfür findet man das Stabilitätsgebiet in Abbildung 30.6. 2 274 KAPITEL 30. NUM. VERFAHREN FÜR ANFANGSWERTAUFGABEN Das Stabilitätsgebiet eines Verfahrens hat die folgende Bedeutung. Will man ein lineares Differentialgleichungssystem y 0 = Ay lösen und besitzt die Matrix A die Eigenwerte λj , j = 1, . . . , n, mit Re λj < 0, so kann man das System nur dann stabil mit einem Verfahren lösen, wenn die Schrittweite h so klein gewählt ist, daß die Zahlen hλj für alle j = 1, . . . , n in dem Stabilitätsgebiet S des Verfahrens liegen. Wünschenswert ist also für ein Verfahren, daß das Stabilitätsgebiet die linke Halbebene umfaßt. Definition 30.14. Ein Verfahren zur Lösung von Anfangswertaufgaben heißt A– stabil, wenn gilt S ⊃ C− := {z ∈ C : Re z ≤ 0}. Das implizite Euler Verfahren ist A-stabil (hat aber nur die Konverzordnung 1), nicht aber die expliziten Runge–Kutta Verfahren. Ein weiteres A-stabiles Verfahren ist die Trapez-Regel 1 y n+1 = y n + h f (xn , y n ) + f (xn+1 , y n+1 ) , 2 (30.25) denn für die Testgleichung erhält man 1 yn+1 = yn + h(λyn + λyn+1 ), 2 d.h. yn+1 = Damit ist hλ − (−2) hλ − 2 yn . z − (−2) ≤ 1} = C− . S = {z ∈ C : z−2 Die Konsistenzordnung ist in diesem Fall 2. Der nächste Satz zeigt, daß man keine besseren A–stabilen Verfahren finden kann. Einen Beweis findet man in Hairer, Wanner [15]. Satz 30.15. ((Dahlquist)) (i) Explizite Mehrschrittverfahren sind niemals A- stabil. (ii) Die Ordnung eines A–stabilen impliziten Mehrschrittverfahrens ist höchstens 2. (iii) Die Trapezregel (30.25) ist das stabile A-stabile Verfahren der Ordnung 2 mit der kleinsten Fehlerkonstanten. 30.4. STEIFE PROBLEME 275 Es gibt viele (auch einander widersprechende) Definitionen der Steifheit. Häufig wird gesagt, daß ein Problem steif ist, wenn es verschieden schnell abklingende Lösungen besitzt, z.B. weil die Jacobi Matrix der rechten Seite Eigenwerte mit dehr unterschiedlichen (negativen) Realteilen besitzt. Dies trifft jedoch nicht den Kern. Will man das schnelle Abklingen von Lösungskomponenten darstellen, so ist man gezwungen die Lösungen mit sehr kleinen Schrittweiten zu approximieren, und hierzu kan man dann ein explizites Verfahren verwenden, denn diese sind in der Regel billiger als implizite Verfahren. Will man dagegen (wie in Beispiel 30.10.) eine sich langsam ändernde Lösung verfolgen, was eigentlich mit großen Schrittweiten möglich sein sollte, und wird ein explizites Verfahren durch sehr schnell abklingende Lösungsanteile zu sehr kleinen Schrittweiten gezwungen, so nennen wir ein Problem steif. Kapitel 31 Randwertaufgaben 31.1 Allgemeines Viele Fragestellungen der Anwendungen führen nicht auf Anfangswertaufgaben, sondern auf Randwertaufgaben, bei denen die freien Parameter in der allgemeinen Lösung einer Differentialgleichung y 0 = f (x, y) durch Bedingungen an y in mehreren Punkten (meistens in den Endpunkten des betrachteten Intervalls) festgelegt werden. Als Beispiel haben wir bereits das Knicklastproblem des Stabes kennengelernt. Anfangswertaufgaben haben unter schwachen Glattheitsvoraussetzungen stets eine (lokal) eindeutige Lösung (Satz 27.17. von Picard und Lindelöf). Die folgenden Beispiele zeigen, daß bei Randwertaufgaben die Verhältnisse komplizierter sind. Beispiel 31.1. y 00 + y = 1, 0 ≤ x ≤ π, y(0) = α, y(π) = β. (31.1) Die Differentialgleichung hat die allgemeine Lösung y(x) = A sin x + B cos x + 1, A, B ∈ IR. Die Randbedingungen besagen y(0) = B + 1 = α, y(π) = −B + 1 = β. Also ist (31.1) genau dann lösbar, wenn α + β = 2. In diesem Fall besitzt (31.1) eine einparametrige Schar von Lösungen y(x) = A sin x + (α − 1) cos x + 1. 2 31.1. ALLGEMEINES 277 Beispiel 31.2. y 00 = 1, 0 ≤ x ≤ π, y(0) = α, y(π) = β. (31.2) 1 Die Differentialgleichung besitzt die allgemeine Lösung y(x) = x2 + Ax + B, und 2 1 1 2 die Randbedingungen liefern B = α, A = β−α− π . π 2 (31.2) ist also für alle α, β ∈ IR eindeutig lösbar mit 1 1 1 y(x) = x2 + β − α − π 2 x + α. 2 π 2 2 Wir betrachten nun die allgemeine lineare (2-Punkt) Randwertaufgabe Ly(x) := y 0 (x) − C(x) y(x) = r(x) Ry := Ay(a) + By(b) = c (31.3) wobei A, B ∈ IR(n,n) , c ∈ IRn und stetige Funktionen C : [a, b] → IR(n,n) und r : [a, b] → IRn gegeben sind. Bemerkung 31.3. Lineare Randwertaufgaben höherer Ordnung kann man wieder in ein System (31.3) transformieren. Mit z1 (x) := y(x), z2 (x) := y 0 (x) lautet z.B. die Randwertaufgabe (31.1): 0 −1 z (x) + 1 0 0 0 z(x) = , 1 1 0 0 0 0 0 z(0) + 1 0 α . β z(π) = 2 Satz 31.4. Gegeben sei die lineare Randwertaufgabe (31.3). Es sei Y (x) ein Fundamentalsystem von y 0 = C(x) y. Dann sind äquivalent: (i) Die Randwertaufgabe hat für jede stetige rechte Seite r(x) und jeden Vektor c ∈ IRn eine eindeutig bestimmte Lösung. (ii) Die homogene Randwertaufgabe y 0 = C(x) y, Ay(a) + By(b) = 0 hat nur die triviale Lösung y(x) ≡ 0. (iii) Die Matrix D := AY (a) + BY (b) ist regulär. 278 KAPITEL 31. RANDWERTAUFGABEN Beweis: Die allgemeine Lösung der Differentialgleichung y 0 − C(x) y = r lautet y(x) = y s (x) + Y (x) α mit einer speziellen Lösung y s (x). Setzt man dies in die Randbedingungen ein, so folgt A(y s (a) + Y (a) α) + B(y s (b) + Y (b) α) = c, d.h. (A Y (a) + B Y (b)) α = D α = c − A y s (a) − B y s (b). Damit ist (31.3) genau dann eindeutig lösbar, wenn D regulär ist, und das homogene Problem ist genau dann nur trivial lösbar, wenn D α = 0 nur die Lösung α = 0 hat, d.h. wenn die Matrix D regulär ist. 31.2 Die Greensche Funktion Wir betrachten die lineare Randwertaufgabe Ly(x) := y 0 (x) − C(x) y(x) = r(x) (31.4) Ry := Ay(a) + By(b) = c. (31.5) Wir leiten in diesem Abschnitt für den Fall, daß die zugehörige homogene Aufgabe nur die triviale Lösung besitzt, eine geschlossene Lösungsformel für die inhomogene Aufgabe her. Diese wird (ähnlich wie die Lösungsformel in Abschnitt 28.3 für Anfangswertaufgaben mit Hilfe der Fundamentalmatrix exA ) verwendet, um die Eigenschaften von linearen Randwertaufgaben und die Lösbarkeit von nichtlinearen Randwertaufgaben zu untersuchen. Sie wird nur in (ganz seltenen) Ausnahmefällen verwendet, um die Lösung von (31.4), (31.5) zu berechnen. Die homogene Randwertaufgabe Ly(x) = 0, Ry = 0, besitze nur die triviale Lösung y(x) ≡ 0, und es sei Y (x) die Fundamentallösung von y 0 = C(x) y mit Y (a) = E. Diese Anfangsbedingung bedeutet keine Einschränkung. Ist nämlich Z(x) irgendeine Fundamentalmatrix, so erfüllt die Fundamentallösung Y (x) := Z(x)Z −1 (a) die Bedingung Y (a) = E. 31.2. DIE GREENSCHE FUNKTION 279 Nach Satz 31.4. ist die Matrix D := A + B Y (b) regulär, und daher ist die Matrix (A + B Y (b))−1 B Y (b) − E ,t<x G(x, t) = −Y (x) Y (t)−1 (A + B Y (b))−1 B Y (b) ,t>x (31.6) für alle x ∈ [a, b] und alle t ∈ [a, b] definiert. Definition 31.5. Die Matrix G(x, t) aus (31.6) heißt die Greensche Matrix der linearen Randwertaufgabe (31.4), (31.5). Mit der Greenschen Matrix definieren wir die Funktion −1 y(x) := Y (x)(A + B Y (b)) c+ Zb G(x, t) r(t) dt. a Dann erfüllt y h (x) := Y (x)(A + B Y (b))−1 c die homogene Differentialgleichung Ly(x) = 0 mit den gegebenen inhomogenen Randbedingungen Ry = c und y p := Zb G(x, t) r(t) dt a erfüllt das inhomogene Differentialgleichungssystem Ly(x) = r(x) mit den homogenen Randbedingungen Ry = 0. Es ist nämlich ys = Zx G(x, t) r(t) dt + a Zb G(x, t) r(t) dt, x und wegen Y 0 (x) = C(x) Y (x) gilt ys 0 = − Zx 0 −1 Y (x) (A + B Y (b)) B Y (b) − E Y (t)−1 r(t) dt a −Y (x) (A + B Y (b))−1 B Y (b) − E Y (x)−1 r(x) − Zb Y 0 (x) (A + B Y (b))−1 B Y (b) Y (t)−1 r(t) dt x +Y (x) (A + B Y (b))−1 B Y (b) Y (x)−1 r(x) = C(x) Zb G(x, t) r(t) dt + Y (x) Y (x)−1 r(x) a = C(x) y s (x) + r(x). 280 KAPITEL 31. RANDWERTAUFGABEN y s löst also das inhomogene Differentialgleichungssystem y 0 = C(x) y + r(x), und wegen A G(a, t) + B G(b, t) = −A(A + B Y (b))−1 B Y (b) Y ( t)−1 −1 −B Y (b) (A + B Y (b)) B Y (b) − E Y (t)−1 = 0 gilt A y s (a) + B y s (b) = 0. Damit ist Satz 31.6. gezeigt. Satz 31.6. Es sei die Randwertaufgabe (31.3) eindeutig lösbar und Y (x) Fundamentallösung von y 0 = C(x) y mit Y (a) = E. Dann ist mit der Greenschen Matrix G(x, t) aus (31.6) die Lösung von (31.3) darstellbar als −1 y(x) = Y (x) (A + B Y (b)) c+ Zb G(x, t) r(t) dt. a Beispiel 31.7. Wir betrachten eine Saite der Länge ` und der Spannung µ, auf die eine (zeitlich konstante) Kraft der Lastdichte f wirke. Dann erfüllt die Auslenkung der Saite (für kleine Belastungen) die Randwertaufgabe Abbildung 31.1 −y 00 = 1 f (x), 0 ≤ x ≤ `, y(0) = 0, y(`) = 0, µ die mit z(x) := (y(x), y 0 (x))T geschrieben werden kann als lineares System erster Ordnung: 0 1 z − 0 0 0 ! z= 0 1 − µ f (x) , 1 0 0 0 z(0) + 0 0 1 0 Die normierte Fundamentallösung hiervon ist Y (x) = ` − x t(x − `) , t<x 1 −1 t G(x, t) = −x x(t − `) ` , t > x, t−` (31.7) 1 x . Daraus erhält man 0 1 die Greensche Matrix −1 0 . 0 z(`) = 31.2. DIE GREENSCHE FUNKTION 281 und die Lösung von (31.7) ist x 1 Z z(x) = µ` ` − x t(x − `) −1 t 0 −f (t) dt + 0 = Zx Z` x −x x(t − `) −1 t−` 0 −f (t) dt Z` t(` − x) f (t) dt + x(` − t) f (t) dt 1 0 x . x ` Z Z µ` − t f (t) dt + (` − t) f (t) dt x 0 2 Bemerkung 31.8. Die Greensche Matrix aus Satz 31.10. hat die folgenden Eigenschaften (vgl. den Beweis von Satz 31.6.): (i) G(x, t) ist auf den Dreiecken {(x, t) : a ≤ x < t ≤ b} und {(x, t) : a ≤ t < x ≤ b} stetig partiell differenzierbar nach x, und es gilt ∂ G(x, t) − C(x) G(x, t) = O ∂x (ii) A G(a, t) + B G(b, t) = O (iii) G(x, x − 0) − G(x, x + 0) = E für alle x 6= t für alle t ∈ (a, b) für alle x ∈ (a, b). Umgekehrt kann man zeigen, daß diese Eigenschaften die Greensche Matrix charak2 terisieren. Ist eine lineare Differentialgleichung der Ordnung m > 1 L̃ y(x) := m X pj (x) y (j) (x) = r̃(x), x ∈ [a, b], pm (x) ≡ 1 (31.8) j=0 mit Randbedingungen R̃ y := m−1 X j=0 (aij y (j) (a) + bij y (j) (b)) i=1,...,m = 0, (31.9) gegeben, so kann man (31.8) und (31.9) wieder in eine Randwertaufgabe der Gestalt (31.3) transformieren. Die Voraussetzungen von Satz 31.6. sind offenbar genau dann erfüllt, wenn L̃ y = 0, R̃ y = 0 nur trivial lösbar ist. 282 KAPITEL 31. RANDWERTAUFGABEN In diesem Fall erhält man mit der Greenschen Matrix G(x, t) = (Gij (x, t))i,j=1,...,m wegen r(t) = (0, . . . , 0, r̃(t))T y (j−1) Zb (x) = yj (x) = Gjm (x, t) r̃(t) dt, j = 1, . . . , m. a Setzt man also g(x, t) = G1m (x, t), so kann man hiermit die Lösung von (31.8) und (31.9) schreiben als y(x) = Zb g(x, t) r̃(t) dt. a g heißt Greensche Funktion der Randwertaufgabe (31.8), (31.9). Sie hat die folgenden Eigenschaften (und ist hierdurch auch charakterisiert): ∂j (i) g(x, t), j = 0, . . . , m − 2, ist stetig auf [a, b] × [a, b] ∂xj (ii) ∂j g(x, t), j = m − 1, m, ist stetig auf [a, b] × [a, b] \ {(x, x) : x ∈ [a, b]} ∂xj (iii) ∂ m−1 ∂ m−1 g(x, x − 0) − g(x, x + 0) = 1 ∂xm−1 ∂xm−1 (iv) L̃ g(x, t) = 0 für alle x 6= t (v) R̃ g(x, t) = 0 für alle t ∈ (a, b). für alle x ∈ (a, b) Beispiel 31.9. Das Problem der gespannten Saite 1 y 00 = − f (x), µ 0 ≤ x ≤ `, y(0) = 0, y(`) = 0 (31.10) besitzt die Greensche Funktion 1 −t(` − x) g(x, t) = ` −x(` − t) t<x x < t. (31.11) g(x, t) ist stetig auf [0, `] × [0, `], ∂ 1 t g(x, t) = ∂x ` t−` t<x t>x ist stetig in den Dreiecken {(x, t) : 0 ≤ t < x ≤ `} und {(x, t) : 0 ≤ x < t ≤ `} und besitzt auf der Diagonale {(x, x) : 0 < x < `} einen Sprung der Höhe 1. Die Lösung von (31.10) besitzt die Darstellung x ` Z 1 Z t(` − x) f (t) dt + x(` − t) f (t) dt . y(x) = µ` x 0 2 31.2. DIE GREENSCHE FUNKTION 283 Für Randwertaufgaben zweiter Ordnung mit separierten Randbedingungen kann man die Greensche Funktion explizit angeben: Satz 31.10. Wir betrachten die Differentialgleichung zweiter Ordnung y 00 (x) + p(x) y 0 (x) + q(x) y(x) = r(x), a ≤ x ≤ b, (31.12) R2 y := γ y(b) + δ y 0 (b) = 0. (31.13) mit separierten (Sturmschen) Randbedingungen R1 y := α y(a) + β y 0 (a) = 0, Dabei seien p, q ∈ C[a, b] und α, β, γ, δ ∈ IR so, daß (31.12), (31.13) für alle r ∈ C[a, b] eindeutig lösbar ist. Es sei y1 6≡ 0 eine Lösung von L y = 0, R1 y = 0 und y2 6≡ 0 eine Lösung von L y = 0, R2 y = 0 und W (x) := y1 (x) y20 (x) − y2 (x) y10 (x) die zugehörige Wronski Determinante. Dann ist a≤t≤x≤b 1 y2 (x) y1 (t) g(x, t) = W (t) y1 (x) y2 (t) a≤x≤t≤b die Greensche Funktion von (31.12), (31.13). Beweis: y1 und y2 sind linear unabhängig, denn sonst wäre y1 eine nichttriviale Lösung der homogenen Aufgabe L y = 0, R1 y = 0, R2 y = 0. Daher gilt W (x) 6= 0 für alle x ∈ [a, b] und g(x, t) ist definiert. Es sei y(x) = Zx a b Z y2 (x) y1 (t) y1 (x) y2 (t) r(t) dt + r(t) dt. W (t) W (t) x Dann gilt 0 y (x) = Zx a + y20 (x) y1 (t) y2 (x) y1 (x) r(t) dt + r(x) W (t) W (x) Zb x = Zx a y 00 (x) = Zx a y10 (x) y2 (t) y1 (x) y2 (x) r(t) dt − r(x) W (t) W (x) b Z y20 (x) y1 (t) y10 (x) y2 (t) r(t) dt + r(t) dt, W (t) W (t) x y200 (x) y1 (t) y 0 (x) y1 (x) r(t) dt + 2 r(x) W (t) W (x) 284 KAPITEL 31. RANDWERTAUFGABEN + Zb x Zx = a y100 (x) y2 (t) y 0 (x) y2 (x) r(t) dt − 1 r(x) W (t) W (x) b Z y200 (x) y1 (t) y100 (x) y2 (t) r(t) dt + r(t) dt + r(x), W (t) W (t) x und daher folgt L y = y 00 + p(x) y 0 + q(x) y = Zx (y200 (x) + p(x) y20 (x) + q(x) y2 (x)) a + Zb y1 (t) r(t) dt W (t) (y100 (x) + p(x) y10 (x) + q(x) y1 (x)) x y2 (t) r(t) dt + r(x) W (t) = r(x), R1 y = α y(a) + β y 0 (a) = α Zb a b Z 0 y1 (a) y2 (t) y1 (a) y2 (t) r(t) dt + β r(t) dt W (t) W (t) a = R1 y 1 Zb a y2 (t) r(t) dt = 0 W (t) und genauso R2 y = R2 y2 Zb a y1 (t) r(t) dt = 0. W (t) Beispiel 31.11. y 00 (x) = −f (x), y(0) = 0, y 0 (1) = 0. Ein Fundamentalsystem, das die geforderten Randbedingungen y1 (0) = 0, y20 (1) = 0 erfüllt, ist y1 (x) = x, y2 (x) ≡ 1, und die hiermit gebildete Wronski Determinante lautet W (x) = −1. Daher ist die Greensche Funktion t, g(x, t) = − x, 0≤t≤x≤1 0≤x≤t≤1 = − min(x, t), und die Lösung der Randwertaufgabe lautet y(x) = Zx 0 (vgl. Beispiel 24.43.). t f (t) dt + Z1 x f (t) dt x 2 31.3. GRUNDBEGRIFFE DER VARIATIONSRECHNUNG 285 Beispiel 31.12. y 00 (x) = −f (x), y(0) = α, y 0 (1) = β. Entsprechend dem Vorgehen in Satz 31.6. zerlegen wir y(x) : = yh (x) + ys (x), wobei yh die homogene Differentialgleichung yh00 = 0 mit den inhomogenen Randbedingungen yh (0) = α, yh0 (1) = β erfüllt, d.h. yh (x) = βx + α, und ys die inhomogene Differentialgleichung ys00 = −f (x) mit den homogenen Randbedingungen ys (0) = 0, ys0 (1) = 0 erfüllt. Zusammen erhält man (vgl. Beispiel 31.11.) y(x) = βx + α + Zx t f (t) dt + Z1 x f (t) dt. x 0 2 Beispiel 31.13. 1 0 y = −1, 0 < x < 1, x R1 y = y 0 (0) = 0, R2 y = y(1) = 0. L y = y 00 + Für y1 (x) = 1, y2 (x) = ln x gilt L y1 = 0, R1 y1 = 0, L y2 = 0, R2 y2 = 0, und wegen 1 W (x) = ist die Greensche Funktion x t ln x, g(x, t) = t ln t, 0<t≤x≤1 0<x≤t≤1 . Die Lösung der Randwertaufgabe lautet y(x) = − Z1 g(x, t) dt = 0 1 (1 − x2 ). 4 2 1 ist in Beispiel 31.13. nicht stetig in [0, 1], sondern x nur in (0, 1], Satz 31.10. ist also nicht anwendbar. Man rechnet aber leicht nach, daß Bemerkung 31.14. p(x) := das obige g die Greensche Funktion ist. 31.3 2 Grundbegriffe der Variationsrechnung Sehr viele Randwertaufgaben in den Anwendungen erhält man als notwendige Lösungsbedingungen für Variationsprobleme. 286 KAPITEL 31. RANDWERTAUFGABEN Der Beginn der Variationsrechnung geht auf das Jahr 1696 zurück, in dem Johann Bernoulli das Problem der Brachistochrone veröffentlichte: In einer vertikalen Ebene seien zwei Punkte P0 und P1 gegeben. Gesucht ist die Kurve, die P0 und P1 verbindet, auf der ein nur der Schwerkraft unterworfener, reibungslos gleitender Massenpunkt möglichst schnell von P0 nach P1 gelangt. Dabei sei die Anfangsgeschwindigkeit 0. Abbildung 31.2 Wir nehmen an, daß die gesuchte Kurve sich in der Form y = y(x) darstellen läßt und daß y stetig differenzierbar ist. Die Bogenlänge der Kurve ist s(x) = Zx q 1 + y 0 (ξ)2 dξ. x0 Für die Geschwindigkeit des Massenpunktes ergibt sich hieraus v= Andererseits ist v = √ dx ds q = 1 + y 0 (x)2 . dt dt 2gy die Geschwindigkeit nach der Fallhöhe y. Daher folgt für die Gesamtfalldauer in Abhängigkeit von der Kurve y v Zx1 u u 1 + y 0 (x)2 T (y) = t dx. x0 2gy(x) Damit lautet die Aufgabe: Bestimme diejenige Funktion y : [x0 , x1 ] → IR mit y(x0 ) = 0 und y(x1 ) = y1 , für die das Funktional v Zx1 u u 1 + y 0 (x)2 T (y) = t dx. x0 2gy(x) minimal wird. Allgemeiner betrachten wir das folgende Variationsproblem: 31.3. GRUNDBEGRIFFE DER VARIATIONSRECHNUNG 287 Sei f : [a, b] × IR2 → IR stetig, M := {y ∈ C 1 [a, b] : y(a) = A, y(b) = B} und J : M → IR, J(y) := Zb f (x, y(x), y 0 (x)) dx. a Bestimme y ∈ M , so daß J(y) ≤ J(z) für alle z ∈ M gilt. Satz 31.15. (Notwendige Bedingung) Sei f zweimal stetig differenzierbar und y ∈ C 2 [a, b] Lösung des obigen Variationsproblems. Dann löst y die Randwertaufgabe − d D3 f (x, y(x), y 0 (x)) + D2 f (x, y(x), y 0 (x)) = 0, y(a) = A, y(b) = B. (31.14) dx (31.14) heißt die Eulersche Gleichung (oder Euler Lagrange Differentialgleichung) des Variationsproblems. Zum Beweis von Satz 31.15. benötigen wir Satz 31.16. Satz 31.16. (Fundamentallemma der Variationsrechnung) Sei k ∈ IN, α ∈ C[a, b] und Zb α(x) h(x) dx = 0 für alle h ∈ C k [a, b] mit h(j) (a) = h(j) (b) = 0, a j = 0, . . . , k − 1. Dann gilt α(x) ≡ 0 auf [a, b]. Beweis: Angenommen es gilt α(x0 ) > 0 für ein x0 ∈ [a, b]. Dann gibt es wegen der Stetigkeit von α ein Intervall [x1 , x2 ] ⊂ [a, b], x1 < x2 , mit α(x) > 0 für alle x ∈ [x1 , x2 ]. Sei (x − x )k+1 (x − x)k+1 1 2 h(x) := 0 für x1 ≤ x ≤ x2 , sonst. Dann gilt h ∈ C k [a, b], h(j) (a) = h(j) (b) = 0 für j = 0, . . . , k − 1 und wir erhalten den Widerspruch Zb α(x) h(x) dx = a Zx2 α(x) h(x) dx > 0 x1 Beweis: (von Satz 31.15.) Jedes z ∈ M läßt sich darstellen als z = y + t h mit t ∈ IR und h ∈ M̃ := {h ∈ C 1 [a, b] : h(a) = h(b) = 0}. 288 KAPITEL 31. RANDWERTAUFGABEN Es sei für ein h ∈ M̃ die Funktion φ : IR → IR definiert durch φ(t) := Zb f (x, y(x) + t h(x), y 0 (x) + t h0 (x)) dx. a Dann besitzt φ in t = 0 ein lokales Minimum, und nach Satz 24.38. ist φ differenzierbar mit 0 φ (t) = Zb {D2 f (x, y(x) + t h(x), y 0 (x) + t h0 (x)) h(x) a + D3 f (x, y(x) + t h(x), y 0 (x) + t h0 (x)) h0 (x)} dx. Also folgt 0 = φ0 (0) Zb = (31.15) {D2 f (x, y(x), y 0 (x)) h(x) + D3 f (x, y(x), y 0 (x)) h0 (x)} dx. a Durch partielle Integration erhält man Zb D3 f (x, y(x), y 0 (x)) h0 (x) dx a = h 0 ib D3 f (x, y(x), y (x)) h(x) a − Zb a d D3 f (x, y(x), y 0 (x)) h(x) dx, dx und wegen h(a) = h(b) = 0 folgt aus (31.15) 0= Zb {D2 f (x, y(x), y 0 (x)) − a d D3 f (x, y(x), y 0 (x))} h(x) dx. dx Da dies für alle h ∈ M̃ gilt, folgt aus Satz 31.16. die Eulersche Gleichung. Bemerkung 31.17. Die Eulersche Gleichung ist eine Differentialgleichung zweiter Ordnung für y. Sie lautet in ausführlicher Schreibweise − ∂2 ∂2 ∂2 ∂f 00 0 f · y − f · y − f+ = 0. 02 0 0 ∂y ∂y∂y ∂x∂y ∂y 2 Beispiel 31.18. Es seien p ∈ C 1 [a, b] und q, r ∈ C[a, b] und hiermit J(y) := Zb a p(x)y 0 (x)2 + q(x)y(x)2 − 2r(x)y(x) dx. 31.3. GRUNDBEGRIFFE DER VARIATIONSRECHNUNG 289 Für f (x, y, y 0 ) := p(x)y 02 + q(x)y 2 − 2r(x)y gilt D3 f (x, y, y 0 ) = 2p(x)y 0 , D2 f (x, y, y 0 ) = 2q(x)y − 2r(x), und daher erhält man als notwendige Bedingung die Randwertaufgabe −(p(x)y 0 (x))0 + q(x)y(x) − r(x) = 0, y(a) = A, y(b) = B. 2 Bemerkung 31.19. In Spezialfällen kann man eine erste Integration der Eulerschen Gleichung leicht ausführen: (i) Ist f (x, y, y 0 ) unabhängig von y, so gilt ∂ f (x, y 0 (x)) = const ∂y 0 (ii) Ist f (x, y, y 0 ) unabhängig von x, so gilt d d (f − y 0 D3 f ) = D2 f y 0 + D3 f y 00 − y 00 D3 f − y 0 D3 f dx dx d D3 f = 0, = y 0 D2 f − dx und daher H(y, y 0 ) = f (y, y 0 ) − ∂ f (y, y 0 ) y 0 = const. ∂y 0 H heißt Hamilton Funktion. 2 Beispiel 31.20. Wir betrachten als Beispiel das Problem der Brachistochrone: v u u 1 + y 0 (x)2 0 f (x, y, y ) = t . 2gy(x) f ist unabhängig von x, und daher gilt nach (ii) 1 f (x, y(x), y 0 (x)) − y 0 (x)D3 f (x, y(x), y 0 (x)) = q = C, (31.16) 2gy(x) · (1 + (y 0 (x))2 ) d.h. y 02 = 1 − 1. 2gC 2 y 290 KAPITEL 31. RANDWERTAUFGABEN Mit der Variablentransformation y =: 1 1 (1−cos u) folgt wegen y 0 = u0 sin u 2 2 4gC 4gC durch Einsetzen 1 + cos u 1 2 −1= , u02 sin2 u = 2 4 16 g C 1 − cos u 1 − cos u d.h. u02 = 16 g 2 C 4 1 + cos u 1 = 16 g 2 C 4 . 2 (1 − cos u)2 (1 − cos u) sin u Man erhält schließlich ±u0 (1 − cos u) = 4 gC 2 und durch Integration von x0 bis x wegen y(x0 ) = 0, d.h. u(x0 ) = 0, x − x0 = ±R(u − sin u), R := 1 . 4 gC 2 Die gesuchte Kurve ist also eine Zykloide (d.h. die Kurve, die ein Punkt der Peripherie eines auf einer Geraden rollenden Kreises beschreibt): x − x0 = ±R(u − sin u), y = R(1 − cos u), wobei R = 2 1 noch aus der Randbedingung y(x1 ) = y1 bestimmt werden muß. 4 gC 2 Bemerkung 31.21. Der obige Lösungsweg ist kritisch, da die Funktion f im Punkte x = x0 , y = 0 singulär ist. Man kann jedoch zeigen, daß die Zykloide tatsächlich Lösung des Problems der Brachistochrone ist. 2 Wir haben in Satz 31.15. nur den Fall behandelt, daß die Funktion y in den Endpunkten a und b des Intervalls vorgegeben ist (wesentliche Randbedingungen). Der Fall, daß solche Randbedingungen nicht vorliegen, wird in dem folgenden Satz behandelt. Satz 31.22. Es sei f : [a, b] × IR2 → IR zweimal stetig differenzierbar, α, β ∈ IR, und es sei y ∈ C 2 [a, b] eine Lösung des Variationsproblems: Minimiere J(y) := Zb a auf C 1 [a, b]. f (x, y(x), y 0 (x)) dx + αy(a)2 + βy(b)2 31.3. GRUNDBEGRIFFE DER VARIATIONSRECHNUNG 291 Dann ist y eine Lösung der Randwertaufgabe − d D3 f (x, y(x), y 0 (x)) + D2 f (x, y(x), y 0 (x)) = 0, dx 2αy(a) − D3 f (x, y(x), y 0 (x))|x=a = 0, 2βy(b) + D3 f (x, y(x), y 0 (x))|x=b = 0. (31.17) (31.18) (31.19) Bemerkung 31.23. Die Randbedingungen (31.18) und (31.19) heißen natürliche Randbedingungen. Sie sind nicht Bestandteil des Variationsproblems, sondern 2 sind für die Lösung des Variationsproblems “automatisch erfüllt”. Beweis: Wir betrachten wie in Satz 31.15. für festes h ∈ C 1 [a, b] die reelle Funktion φ(t) := J(y + t · h) = Zb f (x, y(x) + t · h(x), y 0 (x) + t · h0 (x)) dx a +α(y(a) + t · h(a))2 + β(y(b) + t · h(b))2 , die in t = 0 ein lokales Minimum besitzt. Dann erhält man ähnlich wie im Beweis von Satz 31.15. aus der notwendigen Bedingung Zb 0 φ (0) = {D2 f (x, y(x), y 0 (x))h(x) + D3 f (x, y(x), y 0 (x))h0 (x)} dx a +2αy(a)h(a) + 2βy(b)h(b) = 0 durch partielle Integration des zweiten Summanden unter dem Integral Zb ( a ) d D2 f (x, y(x), y 0 (x)) − D3 f (x, y(x)y 0 (x)) dx dx + (2αy(a) − D3 f (x, y(x), y 0 (x))|x=a ) h(a) + (2αy(b) + D3 f (x, y(x), y 0 (x))|x=b ) h(b = 0. (31.20) Variiert man zunächst nur über alle h ∈ C 1 [a, b], die zusätzlich h(a) = h(b) = 0 erfüllen, so muß y (wie in Satz 31.15.) die Euler Lagrange Differentialgleichung − d D3 f (x, y(x), y 0 (x)) + D2 f (x, y(x), y 0 (x)) = 0 dx erfüllen. Hiermit geht (31.20) über in (2αy(a) − D3 f (x, y(x), y 0 (x))|x=a ) h(a) + (2αy(b) + D3 f (x, y(x), y 0 (x))|x=b ) h(b = 0. für alle h ∈ C 1 [a, b], und daraus folgen die natürlichen Randbedingungen (31.18) und (31.19). 292 KAPITEL 31. RANDWERTAUFGABEN Beispiel 31.24. Wir betrachten das Variationsproblem: Minimiere Z1 (1 + x)y 0 (x)2 − 2y(x) dx + y(1)2 0 auf C 1 [0, 1]. Die Euler Lagrange Differentialgleichung lautet −((1 + x)y 0 (x))0 − 1 = 0, (31.21) und die natürlichen Randbedingungen sind − 2(1 + x)y 0 (x)|x=0 = 2y 0 (0) = 0 2y(1) + 2(1 + x)y 0 (x)|x=1 = 2(y(1) + 2y 0 (1)) = 0. Integration von (31.21) liefert −(1 + x)y 0 = x + c, c ∈ IR, und daher y0 = − x+c c+1 = −1 + , 1+x 1+x d.h. y(x) = −x + (c + 1) ln(1 + x) + d, c, d ∈ IR. Aus den Randbedingungen erhält man c = 0 und d = 2 − ln 2. Der einzige Kandidat für eine Lösung des Variationsproblems ist also y(x) = 2 − x + ln 1+x . 2 Man kann zeigen, daß dieses y tatsächlich das Variationsproblem löst. 2 Bemerkung 31.25. Nach Satz 31.15. und Satz 31.22. ist klar, wie die notwendigen Bedingungen aussehen, wenn nur eine wesentliche Randbedingung y(a) = A bzw. y(b) = B im Variationsproblem gegeben ist. Man erhält dann wieder die Eulersche Gleichung zusammen mit der gegebenen wesentlichen Randbedingung und zusätzlich die natürliche Randbedingung (31.19) bzw. (31.18)am anderen Rand. 2 Beispiel 31.26. Wir betrachten wieder das Problem der Brachistochrone, schreiben nun aber nicht den Endpunkt (x1 , y1 ) vor, sondern nur, daß der Massenpunkt in minimaler Zeit die Gerade {(x1 , α) : α ∈ IR} erreichen möge. Dieses Problem wird offenbar beschrieben durch das Variationsproblem: 31.3. GRUNDBEGRIFFE DER VARIATIONSRECHNUNG 293 Bestimme y ∈ M := {y ∈ C 1 [a, b] : y(x0 ) = 0}, so daß v Zx1 u u 1 + y 0 (x)2 T (y) = t dx. 2gy(x) x0 minimal wird. Wie in Beispiel 31.20. kann man die erste Integration der Euler Lagrange Gleichung mit der Hamilton Funktion ausführen und erhält (vgl. (31.16)) 1 q 2gy(x) · (1 + (y 0 (x))2 ) c ∈ IR, = c, mit der wesentlichen Randbedingung y(x0 ) = 0 am linken Rand und der natürlichen Randbedingungen D3 f (x1 , y(x1 ), y 0 (x1 )) = q y 0 (x1 ) 2gy(x1 ) (1 + y 0 (x 1 )2 ) = 0, d.h. y 0 (x1 ) = 0 am rechten Rand. y 0 (x1 ) = 0 ist auch im physikalischen Sinne natürlich für die 2 Lösung des obigen Brachistochronenproblems. Neben den Variationsproblemen, die auf Randwertaufgaben zweiter Ordnung führen, treten in den Anwendungen (z.B. in der Balkentheorie) auch solche auf, die auf Randwertaufgaben vierter Ordnung führen. Beispiel 31.27. Wir betrachten den Balken der Abbildung 31.3, der links eingespannt und rechts gestützt sei. Bezeichnet w(x) die vertikale Verschiebung der neutralen Faser, so ist die Verzerrungsenergie des Balkens bei kleiner Durchbiegung (falls keine äußeren Abbildung 31.3 Kräfte in x-Richtung wirken) ` 1Z U= E I (w00 )2 dx, 2 0 294 KAPITEL 31. RANDWERTAUFGABEN wobei E den Elastizitätsmodul und I das Flächenträgheitsmoment des Balkens bezeichnen. Die potentielle Energie unter einer vertikalen Belastung mit der Lastdichte p ist daher J(w) = Z` 0 1 E I (w00 )2 − p w dx. 2 Der Balken wird diejenige Lage w = w(x), 0 ≤ x ≤ `, einnehmen, für die die potentielle Energie minimal ist, wobei nur über diejenigen w variiert wird, für die die Randbedingungen w(0) = w0 (0) = w(`) = 0 erfüllt sind, die sich aus der Lagerung 2 des Balkens ergeben. Allgemeiner betrachten wir das Variationsproblem: Minimiere J(y) := Zb f (x, y(x), y 0 (x), y 00 (x)) dx a auf der Menge M := {y ∈ C 2 [a, b] : y(a) = A, y 0 (b) = B 0 }. Ist y eine Lösung und h ∈ M̃ = {h ∈ C 2 [a, b] : h(a) = 0, h0 (b) = 0}, so besitzt die reelle Funktion ϕ(t) := Zb f (x, y(x) + t h(x), y 0 (x) + t h0 (x), y 00 (x) + t h00 (x)) dx a in t = 0 ein Minimum. Ist f eine C 1 -Funktion, so erhält man hieraus wie auf Seite 288 0 0 = ϕ (0) = Zb {D2 f (x, y(x), y 0 (x), y 00 (x)) h(x) a + D3 f (x, y(x), y 0 (x), y 00 (x)) h0 (x) + D4 f (x, y(x), y 0 (x), y 00 (x)) h00 (x)} dx. Ist y ∈ C 4 [a, b] und f sogar eine C 3 -Funktion, so folgt durch zweimalige partielle Integration 0 = Zb n D2 f (x, y(x), y 0 (x), y 00 (x)) − a d D3 f (x, y(x), y 0 (x), y 00 (x)) dx (31.22) o h ib d2 + 2 D4 f (x, y(x), y 0 (x), y 00 (x)) h(x) dx + D3 f (x, y(x), y 0 (x), y 00 (x)) h(x) a dx h ib h d ib + D4 f (x, y(x), y 0 (x), y 00 (x)) h0 (x) − D4 f (x, y(x), y 0 (x), y 00 (x)) h(x) . a a dx 31.3. GRUNDBEGRIFFE DER VARIATIONSRECHNUNG 295 Da diese Gleichung insbesondere für alle h ∈ C 2 [a, b] mit h(a) = h0 (a) = h(b) = h0 (b) = 0 gilt, folgt aus dem Fundamentallemma der Variationsrechnung (Satz 31.16.) die Euler-Lagrange Gleichung d2 ∂ d ∂ ∂ f (x, y, y 0 , y 00 ) = 0 f (x, y, y 0 , y 00 ) − f (x, y, y 0 , y 00 ) + 2 00 0 dx ∂y dx ∂y ∂y (31.23) mit a ≤ x ≤ b. Damit geht (31.22) über in h ib D3 f (x, y(x), y 0 (x), y 00 (x)) h(x) − h d dx a ib h + D4 f (x, y(x), y 0 (x), y 00 (x)) h0 (x) ib D4 f (x, y(x), y 0 (x), y 00 (x)) h(x) a = 0, und wegen h(a) = 0 und h0 (b) = 0 folgt d (D3 f (x, y(x), y (x), y (x)) − D4 f (x, y(x), y 0 (x), y 00 (x))) h(b) dx x=b − D4 f (x, y(x), y 0 (x), y 00 (x))|x=a h0 (a) = 0. 0 00 Variiert man hier über alle h ∈ M̃ mit h0 (a) = 0 bzw. h(b) = 0, so erhält man die natürlichen Randbedingungen d D3 f (x, y(x), y (x), y (x)) − D4 f (x, y(x), y 0 (x), y 00 (x)) = 0 dx x=b D4 f (x, y(x), y 0 (x), y 00 (x))|x=a = 0 0 00 Nach diesen Überlegungen ist klar, daß die Euler-Lagrange Gleichung für das Funktional J(y) = Zb f (x, y(x), y 0 (x), y 00 (x)) dx a stets die Gestalt (31.23) hat, daß diejenigen Randbedingungen wesentlich sind, in denen höchstens Ableitungen der Ordnung 1 auftreten, und wie sich die natürlichen Randbedingungen aus der Randtermen ergeben, die man bei der partiellen Integration erhält. Für das Beispiel des vertikal belasteten Balkens (Beispiel 31.27.) erhält man als Euler-Lagrange Gleichungen (E I w00 )00 − p = 0, 0 ≤ x ≤ `, die wesentlichen Randbedingungen sind w(0) = 0, w0 (0) = 0, w(`) = 0, a 296 KAPITEL 31. RANDWERTAUFGABEN und als natürliche Randbedingung erhält man D4 f (x, w(x), w0 (x), w00 (x))|x=` = E I w00 (`) = 0, d.h. w00 (`) = 0. Die natürliche Randbedingung ist auch im mechanischen Sinne natürlich. Sie besagt, daß am freien Ende des Balkens kein Moment auftritt. 31.4 Randeigenwertaufgaben Wir betrachten die lineare Randwertaufgabe y 0 (x) = C(x, λ) y(x), a≤x≤b A(λ) y(a) + B(λ) y(b) = 0 (31.24) wobei die Koeffizientenmatrix C und/oder die in den Randbedingungen auftretenden Matrizen A und B von einem Parameter λ ∈ IR (bzw. λ ∈ C) abhängen. Es sei Y (x; λ) das Fundamentalsystem, das durch Y (a; λ) = E normiert sei. Dann besitzt nach Satz 31.4. die Randwertaufgabe (31.24) genau dann eine nichttriviale Lösung, wenn die Matrix A(λ) + B(λ) Y (b; λ) singulär ist, wenn also die charakteristische Funktion φ(λ) := det(A(λ) + B(λ) Y (b; λ)) eine Nullstelle besitzt. (31.24) heißt Randeigenwertaufgabe (oder kurz Eigenwertaufgabe), jede Nullstelle λ von φ heißt Eigenwert von (31.24) und jede nichttriviale Lösung von (31.24) heißt zum Eigenwert λ gehörende Eigenfunktion. Sind y und z Eigenfunktionen zu einem festen Eigenwert λ, so ist auch αy + βz für alle α, β ∈ IR (bzw. C) eine Eigenfunktion zu λ. Die Menge aller Lösungen E λ := {y ∈ C 1 [a, b] : y 0 = C(x, λy), A(λ) y(a) + B(λ) y(b) = 0} ist also ein Vektorraum, der Eigenraum von (31.24) zum Eigenwert λ. γ(λ) := dim E λ heißt die Vielfachheit von λ. Es ist klar, daß γ(λ) ≤ n im Falle C(x, λ) ∈ IR(n,n) für alle Eigenwerte λ gilt. Randeigenwertaufgaben treten vor allem bei Verzweigungsproblemen (z.B. Knicklastproblem) oder bei Schwingungsaufgaben auf. 31.4. RANDEIGENWERTAUFGABEN 297 Beispiel 31.28. Kleine Schwingungen einer homogene eingespannten Saite der Länge ` werden beschrieben durch die (partielle) Differentialgleichung ∂2u ∂2u = . ∂x2 ∂t2 (31.25) Dabei bezeichnet u(x, t) die Auslenkung der Saite im Punkte x ∈ [0, `] zur Zeit t. Da die Saite an beiden Enden eingespannt ist, müssen für alle t die Randbedingungen gelten: u(0, t) = 0, u(`, t) = 0. Für harmonische Schwingungen der Saite machen wir den Ansatz u(x, t) := y(x) cos ωt und erhalten aus den Randbedingungen y(0) = 0, y(`) = 0 und aus (31.25) y 00 (x) cos ωt = −ω 2 y(x) cos ωt für alle x ∈ [0, `] und alle t, d.h. mit λ := ω 2 die Eigenwertaufgabe y 00 + λ y = 0, 0 ≤ x ≤ `, y(0) = 0, y(`) = 0. (31.26) Genau dann, wenn (31.26) nicht trivial lösbar ist, liefert unser Ansatz eine harmonische Schwingung der Saite. Die Eigenwerte λ von (31.26) sind also die Quadrate der Eigenfrequenzen der Saite, die zugehörigen Eigenfunktionen sind die Schwingungsformen. Die Differentialgleichung (31.26) besitzt im Falle λ < 0 die allgemeine Lösung y(x) = αeµx + βe−µx , µ2 = −λ, und die Randbedingungen y(0) = α + β = 0, y(`) = α(eµ` − e−µ` ) = 0, liefern α = β = 0. Ebenso ist (31.26) für λ = 0 (allgemeine Lösung: y(x) = α + βx) nur trivial lösbar. √ Im Falle λ > 0 ist mit ω := λ die allgemeine Lösung y(x) = α sin ωx + β cos ωx, aus y(0) = β = 0 folgt y(x) = α sin ωx, und die Randbedingung y(`) = α sin ω` = 0 ist genau dann erfüllt, wenn ω` = kπ, k ∈ IN, gilt. Die Eigenwertaufgabe (31.26) besitzt also abzählbar unendlich viele Eigenwerte λk = kπ 2 kπ , k ∈ IN, die zugehörigen Eigenfunktionen sind yk (x) = αk sin x, αk 6= 0. ` ` 2 Der Einfachheit halber betrachten wir nun den Fall ` = π. 298 KAPITEL 31. RANDWERTAUFGABEN Ist φ eine integrierbare Funktion auf [0, π] und o.B.d.A. φ(0) = 0, so können wir φ durch φ(x) = −φ(−x), x ∈ [−π, 0] zu einer ungeraden integrierbaren Funktion φ̃ auf [−π, π] fortsetzen. φ̃ besitzt eine Fourierreihe, die nur Sinusglieder enthält. Also können wir φ in eine Reihe nach den Eigenfunktionen von (31.26) entwickeln: φ(x) = ∞ X ak sin kx. k=1 Ist φ stetig differenzierbar (es genügen schwächere Voraussetzungen; vgl. Kapitel ??) und φ(0) = φ(π) = 0, so ist die Entwicklung gleichmäßig konvergent. Die hergeleiteten Eigenschaften für (31.26) sind typisch für eine große Klasse von Eigenwertproblemen, die Sturm-Liouvilleschen Eigenwertaufgaben: Ly := −(p(x) y 0 (x))0 + q(x) y(x) = λr(x) y(x) R1 y := α1 y(a) + α2 y 0 (a) = 0 R2 y := β1 y(b) + β2 y 0 (b) = 0. (31.27) Satz 31.29. Es seien p ∈ C 1 [a, b], q, r ∈ C[a, b], p(x) > 0, r(x) > 0 für alle x ∈ [a, b] und α12 + α22 > 0, β12 + β22 > 0. 31.4. RANDEIGENWERTAUFGABEN 299 Dann gilt (i) Die Eigenwertaufgabe (31.27) besitzt abzählbar unendlich viele Eigenwerte λ0 < λ1 < . . . < λn → ∞ für n → ∞. (ii) Die zum Eigenwert λn gehörende Eigenfunktion yn hat genau n einfache Nullstellen im offenen Intervall (a, b). Zwischen je zwei Nullstellen von yn liegt (genau) eine Nullstelle von yn+1 . (iii) Die Eigenfunktionen yn sind orthogonal bzgl. des inneren Produktes hφ, ψi := Zb r(x) φ(x) ψ(x) dx (31.28) a auf C[a, b]. (iv) Jede Funktion φ ∈ C 1 [a, b], die den homogenen Randbedingungen R1 φ = R2 φ = 0 genügt, kann in eine gleichmäßig konvergente Reihe nach den Eigenfunktionen entwickelt werden φ(x) = ∞ X an yn (x). (31.29) n=0 (v) Sind die yn normiert gewählt mit Zb r(x) yn2 dx = 1, so gilt a an = Zb r(x) φ(x) yn (x) dx. a (31.29) heißt Fourierreihe von φ (bzgl. yn ), an heißen die Fourierkoeffizienten von φ. Beweis siehe W. Walter, S. 186. Kapitel 32 Numerische Verfahren für Randwertaufgaben Im Rahmen dieser Vorlesung können wir nur einige Ideen angeben, wie man zu Verfahren für Randwertaufgaben gelangen kann. Wir erläutern diese an dem Beispiel der inhomogenen Saite L y(x) := −(p(x) y 0 (x))0 + q(x) y(x) = f (x), y(a) = α, y(b) = β, x ∈ [a, b] (32.1) wobei p ∈ C 1 [a, b] und q, f ∈ C[a, b] mit p(x) > 0, q(x) ≥ 0 für alle x ∈ [a, b] gegeben sind. Satz 32.1. Die Randwertaufgabe (32.1) besitzt für alle stetigen rechten Seiten f und alle Randwerte α, β ∈ IR eine eindeutige Lösung. Beweis: Nach Satz 31.4. ist nur zu zeigen, daß das homogene Problem Ly(x) = 0, y(a) = 0, y(b) = 0 nur die triviale Lösung besitzt. Ist y(x) eine nichttriviale Lösung, so besitzt y o.B.d.A. ein negatives Minimum in x̄ (ersetze sonst y durch −y). Wegen der Stetigkeit von y gilt dann y(x) < 0 in einer Umgebung U ⊂ (a, b) von x̄ und, da y in x̄ ein Minimum hat, gilt p(x̄) y 0 (x̄) = 0. In U gilt −(p y 0 )0 = −q y ≥ 0; also ist p y 0 in U monoton fallend, und aus p(x̄) y 0 (x̄) = 0 folgt p(x) y 0 (x) ≥ 0 für alle x ∈ U , x ≤ x̄, und p(x) y 0 (x) ≤ 0 für alle x ∈ U , x ≥ x̄, und damit auch y 0 (x) ≥ 0 für alle x ∈ U , x ≤ x̄, und y 0 (x) ≤ 0 für alle x ∈ U , x ≥ x̄. 32.1. DIFFERENZENVERFAHREN 301 Da y in x̄ ein Minimum hat, ist dann y in U konstant. Da man dieses Argument für die Randpunkte von U an Stelle von x̄ wiederholen kann, ist y in ganz (a, b) konstant, wegen der Stetigkeit von y dann auch in ganz [a, b], und aus y(a) = 0 folgt y(x) ≡ 0. 32.1 Differenzenverfahren Wir zerlegen das Intervall [a, b] (der Einfachheit halber) äquidistant a = x0 < x1 < . . . < xN = b, xj − xj−1 = h := b−a , N j = 1, . . . , N, und bestimmen Näherungen yj für y(xj ). Dazu ersetzen wir auftretende Ableitungen durch Differenzenquotienten. Für z ∈ C 1 [a, b] ersetze man z 0 (x) durch 1 (z(x + h) − z(x)) : vorwärtsgenommener Differenzenquotient h oder 1 (z(x) − z(x − h)) : rückwärtsgenommener Differenzenquotient h oder 1 (z(x + h) − z(x − h)) : zentraler Differenzenquotient. 2h Diese Differenzenquotienten kann man rekursiv benutzen, um Näherungen für höhere Ableitungen zu erhalten. Verwendet man zentrale Differenzenquotienten (mit der Schrittweite man z.B. 0 0 (p(x) y (x)) 1 p x+ ≈ h 1 ≈ p x+ h h ), so erhält 2 h 0 h h 0 h y x+ −p x− y x− 2 2 2 2 h 1 h 1 (y(x + h) − y(x)) − p x − (y(x) − y(x − h) . 2 h 2 h Setzt man diese Näherung an den Knoten xj in die Gleichung (32.1) ein, so erhält h , fj := f (xj ) und qj := q(xj ) das man mit den Bezeichnungen pj+ 1 := p xj + 2 2 lineare Gleichungssystem −pj− 1 yj−1 + (pj− 1 + pj+ 1 ) yj − pj+ 1 yj+1 + qj h2 yj = h2 fj , 2 2 2 2 (32.2) j = 1, . . . , N − 1, für die Näherungen yj für y(xj ). Aus den Randbedingungen verwendet man hierbei y0 = α, yn = β. 302 KAPITEL 32. NUM. VERFAHREN FÜR RANDWERTAUFGABEN Tabelle 32.1: Fehler bei der Schrittweite h = N 4 8 16 32 64 128 256 εN 5.30E − 2 1.30E − 3 3.22E − 3 8.04E − 4 2.01E − 4 5.00E − 5 1.18E − 5 π N Die Koeffizientenmatrix A von (32.2) ist regulär, denn ist z = (z1 , . . . , zN −1 )T eine nichttriviale Lösung von Az = 0, so besitzt z eine minimale Komponente zk mit zk < 0 (ersetze sonst z durch −z). Die k-te Zeile von (32.2) lautet −pk− 1 zk−1 + (pk− 1 + pk+ 1 ) zk − pk+ 1 zk+1 = −qk h2 zk ≥ 0, 2 2 2 2 . also ist zk ≥ (pk− 1 zk−1 + pk+ 1 zk+1 ) (pk− 1 + pk+ 1 ). Die rechte Seite ist eine Kon2 2 2 2 vexkombination von zk−1 und zk+1 . Wegen zk ≤ zk−1 , zk ≤ zk+1 folgt daher zk−1 = zk = zk+1 . Durch Wiederholung dieses Arguments folgt, daß der Vektor z konstant ist. Die erste Gleichung sagt dann (p 1 + p 3 + h2 q1 ) z1 − p 3 z1 = 0 ⇐⇒ (p 1 + h2 q1 )z1 = 0 ⇒ z1 = 0 = z2 = · · · = zN −1 . 2 2 2 2 Die Koeffizientenmatrix von (32.2) ist tridiagonal. Da man sich überlegen kann, daß beim Gaußschen Algorithmus für (32.2) keine Pivotsuche erforderlich ist, kann man (32.2) mit ca. 5N Multiplikationen und Divisionen lösen. Beispiel 32.2. −y 00 = sin x, 0 ≤ x ≤ 1, y(0) = 0, y(π) = 0 besitzt offenbar die Lösung y(x) = sin x. Das Gleichungssystem (32.2) hat hierfür π die Gestalt (h := ) N −yj−1 + 2 yj − yj+1 = h2 sin(jh), j = 1 . . . , N − 1. 2 |y(xj ) − yj | der maximale Fehler in den Gitterpunkten, den man π mit der Schrittweite h = erhält. N Sei εN = max j=1,...,N −1 Dann gilt Tabelle 32.1. 32.2. RITZ VERFAHREN 303 Wird also die Schrittweite halbiert, so wird der Fehler geviertelt. Dieses Verhalten ist typisch. Gilt für die Lösung y von (32.1) y ∈ C 4 [a, b], so kann man zeigen, daß der Fehler εN sich durch CN −2 mit einer Konstanten C abschätzen läßt. Differenzenverfahren kann man sofort auf allgemeinere (auch nichtlineare) Randwertaufgaben übertragen, indem man die auftretenden Ableitungen in den Gitterpunkten durch Differenzenapproximationen und so die Randwertaufgabe durch ein (nichtlineares) Gleichungssystem ersetzt. 32.2 Ritz Verfahren Die Randwertaufgabe (32.1) ist notwendige Bedingung für das Variationsproblem Minimiere J(y) := Zb (p(x) y 0 (x)2 + q(x) y(x)2 − 2f (x) y(x)) dx a auf der Menge M := {y ∈ C 2 [a, b] : y(a) = α, y(b) = β}. (β − α)x + αb − βa ) mit ỹ(a) = α, b−a ỹ(b) = β und C02 [a, b] := {y ∈ C 2 [a, b] : y(a) = y(b) = 0}, so kann man M auch Ist ỹ ∈ C 2 [a, b] eine feste Funktion (z.B. ỹ(x) = schreiben als M = {ỹ + y : y ∈ C02 [a, b]}. C02 [a, b] ist offenbar ein Vektorraum. Wir wählen nun einen endlichdimensionalen Teilraum V von C02 [a, b] und minimieren J auf der kleineren Menge M̃ := {ỹ + y : y ∈ V } ⊂ M. Ist {v1 , . . . , vn } eine Basis von V , so kann man jedes Element y ∈ V darstellen als y(x) = n P ξj vj (x) und J hat auf M̃ die Gestalt j=1 ˜ 1 , . . . , ξn ) = J(ỹ + J(ξ n X ξj vj ) j=1 = Zb p(x) ỹ 0 (x) + a − 2f (x) ỹ(x) + n X j=1 n X j=1 2 ξj vj0 (x) + q(x) ỹ(x) + n X j=1 ξj vj (x) dx. 2 ξj vj (x) 304 KAPITEL 32. NUM. VERFAHREN FÜR RANDWERTAUFGABEN Damit hat man die Funktion J˜ auf IRn zu minimieren. Notwendig für ein Minimum von J˜ ist Zb n X ∂ J˜ 2p(x) ỹ 0 (x) + = ξj vj0 (x) vi0 (x) ∂ξi j=1 a + 2q(x) ỹ(x) + n X ξj vj (x) vi (x) − 2f (x) vi (x) dx = 0, i = 1, . . . , n. j=1 Man erhält also wieder als Ersatzproblem ein lineares Gleichungssystem Aξ = g mit A = Zb (p(x) vi0 (x) vj0 (x) + q(x) vi (x) vj (x)) dx i,j=1,...,n a g = Zb (f (x) vj (x) − p(x) ỹ 0 (x) vj0 (x) − q(x) ỹ(x) vj (x)) dx j=1,...,n . a Die Matrix A ist positiv definit (also regulär, und damit ist Aξ = g eindeutig n P lösbar), denn für ξ ∈ IRn \ {0} gilt w(x) := ξj vj (x) 6≡ 0, wegen w(a) = 0, j=1 w(b) = 0, also auch w0 (x) 6≡ 0, und daher T ξ Aξ = Zb 0 2 2 (p(x) w (x) + q(x) w (x)) dx ≥ a Zb p(x) w0 (x)2 dx > 0. a Beispiel 32.3. −y 00 = e−x , y(0) = 0, y(1) = 0 besitzt die Lösung y(x) = 1 + (e−1 − 1) x − e−x . Mit den Ansatzfunktionen v1 (x) = x (1 − x), v2 (x) = x2 (1 − x) erhält man das Ersatzproblem Aξ = g, wobei A = Z1 vi0 (x) vj0 (x) dx i,j=1,2 0 g = Z1 −x vj (x) e 0 dx j=1,2 = = 1 3 1 6 3 e−1 11 e−4 1 6 2 15 ! ! ! mit der Lösung ξ = 32 − 86 e . 190 − 70 e Für den Fehler gilt max |y(x) − ξ1 v1 (x) − ξ2 v2 (x)| ≤ 3.2 · E − 4. x∈[0,1] Man erhält also mit einem sehr groben Ansatz eine sehr gute Näherungslösung. 2 32.2. RITZ VERFAHREN 305 Abbildung 32.1 Dachfunktion Wir haben hier die in A und g auftretenden Integrale exakt berechnet. In der Praxis wird man diese numerisch mit Quadraturformeln auswerten. Nachteil des Ritz Verfahren ist, daß die Matrix A das Ersatzproblem i.a. voll besetzt ist. Wir haben vorausgesetzt, daß die Elemente von M zweimal stetig differenzierbar sind. Dies wurde nur benötigt, um bei der Herleitung der Eulerschen Gleichung die partielle Integration ausführen zu können. Tatsächlich kann man zeigen, daß das Funktional J ein Minimum auf der Menge M̂ = {y : [a, b] → IR stückweise stetig differenzierbar, y(a) = α, y(b) = β} (sogar auf einer noch größeren Menge) besitzt, daß das Minimum y zweimal stetig differenzierbar und dann natürlich Lösung der Randwertaufgabe (32.1) ist. Um zu einer Näherungslösung von (32.1) zu gelangen, ist es also ebenfalls sinnvoll, das Ritz Verfahren mit stückweise stetig differenzierbaren Ansatzfunktionen v1 , . . . , vn auszuführen. Wir zerlegen das Intervall [a, b] (der Einfachheit halber) äquidistant a = x0 < . . . < xn = b, xj − xj−1 = h := b−a , n j = 1, . . . , n und wählen als Ansatzfunktion die sogenannte Dachfunktionen vj (x) = 1 h 1 h (x − xj−1 ), xj−1 ≤ x ≤ xj (xj+1 − x), xj ≤ x ≤ xj+1 , 0, x∈ / [xj−1 , xj+1 ]. j = 1, . . . , n − 1 306 KAPITEL 32. NUM. VERFAHREN FÜR RANDWERTAUFGABEN Tabelle 32.2: Fehlerverhalten beim Ritz Verfahren n 4 8 16 32 64 128 256 εn 6.90E − 3 1.84E − 3 4.73E − 4 1.20E − 4 3.03E − 5 7.60E − 6 1.90E − 6 Da vj (x) und damit auch vj0 (x) nur auf den Intervall [xj−1 , xj+1 ] von Null verschieden ist, gilt vi0 (x) vj0 (x) ≡ 0 und vi (x) vj (x) ≡ 0 für |i − j| ≥ 2, und daher auch Zb (p(x) vi0 (x) vj0 (x) + q(x) vi (x) vj (x)) dx = 0 für |i − j| ≥ 2. a Für diese Ansatzfunktion ist also die Koeffizientenmatrix beim Ritz Verfahren wieder tridiagonal. Beispiel 32.4. −y 00 = e−x , y(0) = 0, y(1) = 0. Dann gilt ai,i−1 = ai−1,i = Z1 0 vi0 (x) vi−1 (x) dx aii = vi0 (x)2 dx = 0 gi = Z1 1 h2 x e−x vi (x) dx = 0 = xi 0 vi0 (x) vi−1 (x) dx xi−1 0 Z1 Zxi Zxi i−1 dx + 1 h2 xZ1+1 1 Z =− 2 h x dx = − 1 h i−1 dx = xi 2 h 1 −xi+1 (e − 2e−xi + e−xi−1 ), h i = 1, . . . , n − 1. Die Koeffizientenmatrix stimmt also mit der des Differenzenverfahrens überein, nicht aber die rechte Seite. Für den Fehler εn = max |y(x) − man wieder das asymptotische Verhalten εn ≤ Cn x∈[0,1] −2 n P ξi vi (x)| erhält i=1 wie beim Differenzenverfahren (siehe Tabelle 32.2). 2 Das Ritz Verfahren mit den Dachfunktionen als Ansatz ist der einfachste Fall eines Verfahrens der finiten Elemente, die insbesondere für Randwertaufgaben mit partiellen Differentialgleichungen sehr viel verwendet werden. 32.3. SCHIEßVERFAHREN 32.3 307 Schießverfahren Da dies keinen Mehraufwand bedeutet, betrachten wir hier gleich die Randwertaufgabe y 0 = f (x, y), a ≤ x ≤ b, Ay(a) + By(b) = c, (32.3) wobei f die Voraussetzungen von Satz 27.17. von Picard und Lindelöf erfülle. Dann besitzt die Anfangswertaufgabe z 0 = f (x, z), z(a) = η (32.4) eine (lokal) eindeutige Lösung z(x; η). Ist y eine Lösung der Randwertaufgabe (32.3) und η := y(a), so gilt offenbar y(x) = z(x; η). Ist umgekehrt z(x; η) in [a, b] erklärt und F (η) := A η + B z(b; η) − c = 0, so ist z(x; η) eine Lösung der Randwertaufgabe (32.3). Kann man also die Anfangswertaufgabe (32.4) lösen, so ist das Problem, die Randwertaufgabe zu lösen, zurückgeführt auf das Nullstellenproblem F (η) = 0. Ist f stetig differenzierbar, so ist nach Korollar Korollar 27.27. auch die Abbildung F stetig differenzierbar, und man kann das Newton Verfahren zur Lösung von F (η) = 0 verwenden. Natürlich kann man i.a. (32.4) nicht exakt lösen, kennt also die Funktion F (η) nicht explizit. Bei gegebenen η ∈ IRn kann aber mit einem der effizienten Verfahren aus Kapitel 30 die Randwertaufgabe (32.4) numerisch gelöst werden und hiermit F (η) näherungsweise ausgewertet werden. Näherungen für die Ableitung F 0 (η) erhält man, indem man die Anfangswertaufgabe z 0 = f (x, z), z(a) = η + hej , j = 1, . . . , n, (numerisch) löst, hiermit F (η + hej ) näherungsweise bestimmt und dann die Differenzenquotienten bildet. Beispiel 32.5. y10 = y2 , y20 = − exp(−x), y1 (0) = 0 y1 (1) = 0. Mit dem Runge-Kutta Verfahren der Ordnung 4 zur Lösung der Randwertaufgaben 1 1 und der Schrittweite h = erhält man den Fehler in x = von 4.98 · 10−6 . 2 2 2 308 KAPITEL 32. NUM. VERFAHREN FÜR RANDWERTAUFGABEN Ist die Differentialgleichung wie im obigen Beispiel 32.5. linear, so ist die Funktion F (η) offenbar affin linear. Daher liefert das Newton Verfahren im ersten Schritt die Anfangswerte der Lösung der (diskretisierten) Randwertaufgabe. Ist wie im Beispiel 32.5. ein Teil der Anfangswerte gegeben (y1 (0) = 0), so brauchen nur die übrigen Anfangswerte (y2 (0)) variiert zu werden. Für das Newton Verfahren ist also eine entsprechend kleinere Zahl von Anfangswertaufgaben in jedem Schritt zu lösen. Bei der Lösung von Randwertaufgaben können erhebliche Schwierigkeiten auftreten, wenn die Lösung der Anfangswertaufgabe (32.4) sehr empfindlich von den Anfangswerten η abhängt. In dem Buch von Stoer und Bulirsch [29, p.167 ff] wird das Beispiel y 00 = 5 sinh y, y(0) = 0, y(1) = 1, diskutiert. Diese Randwertaufgabe besitzt eine eindeutige Lösung y(x), für die gilt y 0 (0) = 4.57504614 · 10−2 . Man kann zeigen, daß die Lösung der Anfangswertaufgabe z 00 = 5 sinh z, z(0) = 0, z 0 (0) = η, für η ≥ 0.05 nicht im ganzen Intervall [0, 1] definiert ist, sondern einen Pol in (0, 1) hat, der Einzugsbereich des Schießverfahrens also sehr klein ist. Diese Schwierigkeit kann man häufig durch den Übergang zur Mehrzielmethode überwinden. Wir beschreiben das Vorgehen für die Aufgabe (32.3): Man wähle in dem Intervall [a, b] zusätzliche Punkte a = x 0 < x 1 < . . . < xm = b und löse in den Teilintervallen [xj−1 , xj ] die Anfangswertaufgaben z j 0 = f (x, z j ), z j (xj−1 ) = η j , j = 1, . . . , m. Die η j ∈ IRn werden dabei (wieder durch Lösen eines nichtlinearen Gleichungssystems) so bestimmt, daß die zusammengesetzte Funktion y(x) := z j (x), xj−1 ≤ x ≤ xj , stetig ist, d.h. z j (xj ) = z j+1 (xj ), j = 1, . . . , m − 1, und die Randbedingung A y(a) + B y(b) = A z 1 (a) + B z m (b) = c erfüllt ist. 32.3. SCHIEßVERFAHREN y ist dann Lösung der Randwertaufgabe (32.3), denn wegen y 0 (xj − 0) = z j 0 (xj ) = f (xj , z j (xj )) = f (xj , z j+1 (xj )) = z j+1 0 (xj ) = y 0 (xj + 0) ist y stetig differenzierbar in [a, b]. 309 Literaturverzeichnis [1] M. Abramowitz, I. A. Stegun (Eds.): Handbook of Mathematical Functions. Dover, New York 1964 [2] T.M. Apostol: Mathematical Analysis. Addison–Wesley, Reading 1957 [3] V. I. Arnol’d: Gewöhnliche Differentialgleichungen. Springer, Berlin 1980 [4] F. Ayres Jr.: Schaum’s Outline of Theory and Problems of Differential and Integral Calculus. McGraw-Hill, New York 1962 [5] M. Braun: Differentialgleichungen und ihre Anwendungen. Springer, Berlin 1979 [6] I. N. Bronstein, K. A. Semendjajew, G. Musiol, H. Mühlig: Taschenbuch der Mathematik . Verlag Harri Deutsch, Thun 1993 [7] K. Burg, H. Haf, F. Wille: Höhere Mathematik für Ingenieure (Band I–V). Teubner, Stuttgart 1985 [8] J. E. Dennis Jr., R. B. Schnabel: Numerical Methods for Unconstrained Optimization and Nonlinear Equations. Prentice Hall, Englewood Cliffs 1983 [9] G. Engeln-Müllges, F. Reutter: Formelsammlung zur Numerischen Mathematik mit Turbo Pascal Programmen. Bibliographisches Institut, Mannheim 1987 [10] O. Forster: Analysis (Band 1–3). Vieweg, Braunschweig 1976 [11] G. H. Golub, C. van Loan: Matrix Computations. John Hopkins, Baltimor 1989 [12] S. I. Grossmann, W. R. Derrick: Advanced Engineering Mathematics. Harper & Row, New York 1988 310 LITERATURVERZEICHNIS 311 [13] K. Habetha: Höhere Mathematik für Ingenieure und Physiker (Band 1–3). Klett, Stuttgart 1976 [14] E. Hairer, S.P. Nørsett, G. Wanner: Solving Ordinary Differential Equations I. Nonstiff Problems. Springer, Berlin 1987 [15] E. Hairer, G. Wanner: Solving Ordinary Differential Equations II. Stiff and Differential–Algebraic Problems. Springer, Berlin 1991 [16] P. Hartmann: Ordinary Differential Equations. Wiley, New York 1964 [17] H. Heuser: Lehrbuch der Analysis Band 1. 8. Auflage Teubner, Stuttgart 1990 [18] H. Heuser: Lehrbuch der Analysis Band 2. 6. Auflage Teubner, Stuttgart 1991 [19] H. W. Knobloch, F. Kappel: Gewöhnliche Differentialgleichungen. Teubner, Stuttgart 1974 [20] W. Luther, K. Niederenk, F. Reutter, H. Yserentant: Gewöhnliche Differentialgleichungen. Analytische und Numerische Behandlung. Vieweg, Braunschweig 1987 [21] W. Mackens, H. Voß: Mathematik I für Studierende der Ingenieurwissenschaften. HECO, Alsdorf 1993 [22] W. Mackens, H. Voß: Aufgaben und Lösungen zu Mathematik I für Studierende der Ingenieurwissenschaften. HECO, Alsdorf 1994 [23] J. Marsden, A. Weinstein: Calculus. Benjamin/Cummings, Menlo Park 1980 [24] H. R. Schwarz: Numerische Mathematik . Teubner, Stuttgart 1988 [25] R. Seydel: From Equilibrium to Chaos. Practical Bifurcation and Stability Analysis. Elsevier, New York 1988 [26] M. R. Spiegel: Schaum’s Outline of Theory and Problems of Vektor Analysis. McGraw-Hill, New York 1959 [27] M. R. Spiegel: Höhere Mathematik für Ingenieure und Naturwissenschaftler . Theorie und Anwendungen. McGraw-Hill, Düsseldorf 1978 [28] J. Stoer: Einführung in die Numerische Mathematik I . Springer, Berlin 1976 312 LITERATURVERZEICHNIS [29] J. Stoer, R. Bulirsch: Einführung in die Numerische Mathematik II . Springer, Berlin 1973 [30] W. Walter: Gewöhnliche Differentialgleichungen. 2. Auflage, Springer, Berlin 1976 Index ε-Umgebung, 2 - Lemma von Gronwall, 198 A-konjugiert, 92 - Lineare Differentialgleichungen, 181 k-te Taylorpolynom, 35 - Mantelfläche des Rotationskörpers, 153 m-dimensionalen Fläche, 50 - Mathematisches Pendel, 175 - . Amplitude, 221 - Oberintegral, 101 - . Euler-Lagrange Gleichung, 293 - PASCAL, 254 - . Jordansche Normalform, 217 - Peano, 201 - . Verfahrens der finiten Elemente, 304 - Picard, Lindelöf; globale Version, 196 - . Zykloide, 288 - Picard, Lindelöf; lokale Version, 200 - . allgemeine Lösung, 182 - Polygonzugverfahren, 251, 256 - . attraktiv, 236 - Radioaktiver Zerfall, 173 - . natürlichen Randbedingungen, 293 - Runge-Kutta-Verfahren, 257 - . rückwärtsgenommener Differenzenquo- - Schwingungsgleichung, 174 - Sturmschen, 281 tient, 299 - . vorwärtsgenommener Differenzenquo- - Turbo Pascal 7.0, 90 tient, 299 - Unterintegral, 101 - . zentraler Differenzenquotient, 299 - Variationsrechnung, 284 - Abbruchfehler, 251 - Verbessertes Polygonzugverfahren, 256 - Brachistochrone, 287 - Verfahren von Heun, 256 - Elektrischer Schwingkreis, 175 - Euler Lagrange Differentialgleichung, 285 - Explizitheit, 263 - Federschwingung, 174 - Frobeniusmatrix, 219 - Grundlösungsverfahren, 227 - Jordansche Normalform, 214 - Transformationssatz, 116 - eingebetteten Runge-Kutta-Formeln, 258 - klassische Runge-Kutta-Verfahren, 258 - kritisch gedämpfter Fall, 217 - schwach gedämpfter Fall, 214 - van der Pol Gleichung, 247 - überdämpfter Fall, 214 - Kettenlinie, 189 A–stabil, 272 - Knicklastproblem des Stabes, 176 abgeschlossen, 2 - Konsistenz, 263 abgeschlossene Hülle, 2 - Koordinatentransformation, 116 abgeschlossene Kugel, 2 313 314 INDEX Ableitung, 8 explizites k-Schritt Verfahren, 260 Abschluß , 2 explizites System, 177 Abstiegsrichtung, 65 aktiv, 83 Algorithmus zur Lösung des nichtlinearen Ausgleichsproblems, 97 Anfangswertaufgabe, 192 aperiodischer Grenzfall, 217 asymptotisch stabil, 235, 245 autonom, 178 Feinheit der Zerlegung, 111 Fixpunktsatz für kontrahierende Abbildungen, 39 Fläche, 148 Flächenstück, 148 Fortsetzungsverfahren, 59 Fourierkoeffizienten, 297 Fourierreihe, 297 Bernoullische Differentialgleichung, 184 Fundamentallösung, 208 BFGS-Verfahren, 95 Fundamentalsystem, 208 Brachistochrone, 284 Fundamentallemma der Variationsrechnung, 285 Broyden-Fletcher-Goldfarb-Shanno-Verfahren, Funktionalmatrix, 15 95 charakteristischen Polynoms, 225 Gauß Newton Verfahren, 97, 98 Gaußsche Fehlerintegral, 132 Dachfunktionen, 304 Gaußscher Integralsatz, 144 Diffeomorphismus, 162 Gebiet, 4 differenzierbar, 8 gedämpften Newton Verfahrens, 45 Divergenz, 27 gewöhnliche Differentialgleichung, 177 Durchschlagspunkt, 56 Gleichgewichtspunkt, 234 Eigenfunktion, 294 Eigenraum, 294 Eigenwert, 294 Eigenwertaufgabe, 294 Einbettungsverfahren, 59 einfach, 162 einfach zusammenhängend, 140 Einschrittverfahren, 255 Energieerhaltungssatz der Mechanik, 136 Eulersche Differentialgleichung, 222 gleichmäßig konvergent, 127 globale Fehler, 252 Gradient, 11 Gradienten, 18 Graph, 5 Greensche Formeln, 171 Greensche Funktion, 227, 280 Greensche Matrix, 277 Greenscher Bereich, 143 Grundlösung, 227 Eulersche Gleichung, 285 Häufungspunkt, 3 Eulersche Polygonzugverfahren, 250 Hamilton Funktion, 287 exakt, 185 Hesse Matrix, 38 INDEX 315 Hesteness und Stiefel (1952), 92 konservatives Kraftfeld, 135 hinreichende Bedingung zweiter Ordnung, konsistent, 252, 255 66 Kontinuitätsgleichung, 169 Homotopieverfahren, 59 kontrahierend, 40 homogen, 178 Kontraktionskonstante, 40 homogene Differentialgleichung, 180 konvergent, 252 implizite Euler Verfahren, 268 implizite Funktionen, 54 konvergiert, 7 konvex, 26 Kugel, 2 impliziten Differentialgleichungssystem, 177 Kugelkoordinaten, 23 implizites k-Schritt Verfahren, 260 Kuhn Tucker Bedingungen, 83 inaktiv, 83 Kurvenintegral, 134 infinitesimale Oberflächenelement, 152 inhomogen, 178 Lagrange Funktion, 76 Inhomogenität des Systems, 178 Lagrangesche Multiplikatoren, 74, 83 inkompressibel, 147 Lagrangesche Multiplikatorenregel, 73, 74 Inkremental-Lastmethode, 59 Lagrangesche Restgliedformel, 35 Innere, 2 Laplace Operator, 34 innerer Punkt, 2 linear, 178 instabil, 235, 246 lineare Ausgleichsproblem, 96 Instabilitätssatz, 243, 246 linearen Differentialgleichungssystem mit Integrabilitätsbedingung, 186 konstanten Koeffizienten, 178 Integral von f über D, 102 Lipschitz Bedingung, 195 Integralsatz von Gauß, 165 Lipschitz Konstante, 195 Integralsatz von Green, 141 Ljapunov, 245 Integralsatz von Stokes, 158 integrierbar, 106 integrierbar über D, 102 Ljapunov Funktion, 245 lokale Fehler, 251, 255 lokale Umkehrbarkeit, 51 integrierender Faktor, 187 Iterationsvorschrift, 42 maximiert, 71 Iterierte Integrale, 103 meßbar, 106 Jacobi Matrix, 15 Mehrschrittverfahren, 259 Mehrzielmethode, 306 Kardioide, 22 Methode der kleinsten Quadrate, 69 Kettenregel, 17 Methode der unbestimmten Koeffizienten, Knotenpunkt, 240 kompakt, 4 228 Methode des steilsten Abstiegs, 90 316 INDEX minimiert, 71 quasi–gleichmäßig, 255 Mittelwertsatz, 25, 27 Quasi-Newton Verfahren, 95 Mittelwertsatz der Integralrechnung, 110 Rand, 2 Nabla Operator, 11 Randeigenwertaufgabe, 294 natürliche Randbedingungen, 289 Randpunkt, 2 Nebenbedingungen, 71 Randwertaufgaben, 274 Newton Verfahren, 42 regulär, 83 nichtlineare Ausgleichsproblem, 96 reguläre Koordinatentransformation, 117 Niveaulinien, 5 Resonanz, 221 Normalbereich, 107, 108 restringierte Minimierungsprobleme, 70 Normaleneinheitsvektor, 150 Riccatische Differentialgleichung, 184 Notwendige Bedingung, 285 Richtungsableitung, 14, 18 notwendige Bedingung erster Ordnung, Riemannsche Summe, 111 65 Riemannsches Integrabilitätskriterium, 103 notwendige Bedingung zweiter Ordnung, Rotation, 29, 139 66 s, 140 Nullmenge, 106 Sattelpunkt, 66, 241 Oberflächeninhalt, 152 Oberflächenintegral, 155, 156 offen, 2 Satz über implizite Funktionen, 49 Satz von Fubini, 103 Satz von Ostrogradski, 144 offene Kern, 2 offenes Intervall, 3 Ordnung des Verfahrens, 252 Orthogonalisierungsverfahren von Erhardt Schmidt, 92 Schrittweitensteuerung, 61, 253 separierbar, 179 separierten, 281 stabil, 235, 245, 262 Stabilität, 263 Parameterbereich, 148 Stabilitätsgebiet, 270 Parameterdarstellung, 148 Stabilitätssatz, 238, 242 partiell differenzierbar, 10, 11, 14 Standardbereich, 141 partielle Ableitung, 10 stark stabil, 262 Phasendiagramm, 236 stationäre Punkte, 66 Potential, 33 stationäre Lösung, 234 Potentialgleichung, 34 steif, 273 potentielle Energie, 135 Steinerscher Satz, 121 Projektion, 109 sternförmig, 161 projizierbar, 109 stetig partiell differenzierbar, 14 INDEX 317 Stokesscher Integralsatz, 144 Zerlegung, 111 Strudelpunkt, 241 zulässigen Punkte, 70 Sturm-Liouvilleschen Eigenwertaufgaben, zusammenhängend, 4 296 sukzessive Approximation, 199 zweimal partiell differenzierbar, 31 zweimal stetig partiell differenzierbar, 31 zweite partielle Ableitung, 31 Tangentialebene, 16, 149 Taylorreihe, 38 Torus, 149 total differenzierbar, 8 Transformationssatz für Integrale, 117 Trapez-Regel, 272 Umgebung, 2 Umkehrpunkt, 54, 55 Variationsgleichung, 206 Variation der Konstanten, 182, 223 Variationsproblem, 284 Vektorfeld, 27 vereinfachtes Newton Verfahren, 43 Verfahren der konjugierten Gradienten, 92 Verzweigungspunkt, 56 Vielfachheit, 294 Volumen, 106 von der Ordnung, 255 von Mises Stabwerk, 47 Wegintegral, 134 wesentliche Randbedingungen, 288 Wirbelfeld, 30 wirbelfrei, 136 wirbelfreien Vektorfeld, 30 Wirbelpunkt, 241 Wronski-Determinante, 219 Wronski-Matrix, 219 Wärmeleitungsgleichung, 170 Zylinderkoordinaten, 25 Zykloide, 288