5 Funktionen mit mehreren Variablen
Transcrição
5 Funktionen mit mehreren Variablen
5 Funktionen mit mehreren Variablen Ein Ausdruck wie etwa f (x, y, z) = x2 y z (356) läßt sich als Funktion f der n = 3 unabhängigen Variablen x, y und z auffassen. Funktionswerte sind etwa f (1, 2, 3) = 32 , f (2, 3, 1) = 12 und f (2, 2, 2) = 4. Der Definitionsbereich dieser Funktion ist offenbar n o 3 Df = (x, y, z) ∈ R z 6= 0 ⊆ R3 . (357) Für beliebige Werte von n ist es sinnvoll, die Variablen x1 , x2 , ..., xn zu nennen und sie als die Komponenten eines variablen Spaltenvektors x ∈ Rn aufzufassen, Df ⊆ Rn . f (x1 , x2 , ..., xn ) ≡ f (x), 5.1 (358) 3D-Plot Eine Funktion f (x, y) mit zwei Variablen x, y läßt sich als 3D “Landschaft” interpretieren, indem man zu jedem Punkt (x, y) auf der xy-Ebene den Funktionswert z = f (x, y) als Höhe senkrecht über dieser Ebene aufträgt. In der Zeichenebene erfordert dies natürlich eine perspektivische Darstellung. Bsp. 1a: Wir wollen einen solchen 3D-Plot der Funktion f (x, y) = 1 + xy 5 (359) zeichnen. Dazu benötigen wir eine Wertetabelle: f (x, y) x = −2 x = −1 x = 0 x = 1 x = 2 y=2 0.2 0.6 1.0 1.4 1.8 y=1 0.6 0.8 1.0 1.2 1.4 y=0 1.0 1.0 1.0 1.0 1.0 1.4 1.2 1.0 0.8 0.6 y = −1 y = −2 1.8 1.4 1.0 0.6 0.2 61 (360) z = f (x, y) y x 5.2 Bereichsintegrale Wir wollen den Integralbegriff von Funktionen f (x) mit einer (n = 1) Variable x, Z a b K b−aX f (xk ), dx f (x) = lim K→∞ K k=1 xk := a + k b−a , K (361) auf den Fall von Funktionen mit mehreren (n > 1) Variablen verallgemeinern. Obiges Integral ist gleich dem Mittelwert von f (x) auf dem Integrationsbereich [a, b], K 1 X f (xk ), f (x) x∈[a,b] = lim K→∞ K k=1 (362) multipliziert mit dessen Länge b − a. [Für nicht-negative Funktionen f (x) ≥ 0 ist dies gerade die Fläche unter ihrem Graphen.] Diese Beobachtung legen wir der Definition des Bereichsintegrals zugrunde. 5.2.1 Definition Wir betrachten eine Funktion f mit n Variablen und Definitionsbereich Df ⊆ Rn , f : Df → R, x 7→ y = f (x) ≡ f (x1 , ..., xn ), (363) sowie einen in Df enthaltenen Bereich Ω ⊆ Df . Im Fall n = 1 ist Ω ein Intervall [a, b], bei n = 2 ein Ausschnitt der x1 x2 -Ebene, bei n = 3 ein Volumenausschnitt des R3 , etc. Das Maß MΩ von Ω ist dessen Inhalt, im Fall n = 1 also eine Länge, bei n = 2 ein Flächeninhalt, bei n = 3 ein Volumeninhalt, etc. R Def.: Das Bereichsintegral Ω dn x f (x) der Funktion f über den Bereich Ω ist das Produkt aus dem Maß MΩ des Bereichs Ω und dem Mittelwert hf iΩ der Funktion auf Ω , Z (364) dn x f (x) := MΩ · f (x) x∈Ω . Ω 62 Zur Berechnung dieses Mittelwerts müssen wir möglichst viele (K ≫ 1) Punkte xk möglichst gleichmäßig über den Bereich Ω verteilen. Im Limes K → ∞ gilt dann hf (x)ix∈Ω 5.2.2 K 1 X f (xk ). = lim K→∞ K k=1 (365) Berechnung in kartesischen Koordinaten Bsp. 1b: Wir betrachten wieder die Funktion aus Bsp. 1a mit n = 2 Variablen, f (x) ≡ f (x1 , x2 ) = 1 + x1 x2 , 5 Df = R 2 . (366) Als Integrationsbereich wählen wir den Viertelkreis Ω= n o (x1 , x2 ) ∈ R2 x1 , x2 ≥ 0 und x21 + x22 ≤ R2 , MΩ = πR2 . 4 (367) Am 3D-Plot dieser Funktion (Abschnitt 5.1) erkennen wir min f (x) = f (0, 0) = 1, x∈Ω √ √ max f (x) = f ( R2 2 , R2 2 ) = 1 + x∈Ω R2 . 10 (368) Der Mittelwert hf (x)ix∈Ω liegt somit irgendwo zwischen diesen beiden Extremwerten, 1 < hf (x)ix∈Ω < 1 + R2 . 10 (369) Zur exakten Berechnung dieses Mittelwerts schreiben wir x = (x1 , x2 ) = (x, y) (370) und wählen ein feinmaschiges Netz aus achsenparallelen Geraden, welche die xy-Ebene (x1 x2 -Ebene) in kleine Rechtecke mit einheitlichen Seitenlängen δx bzw. δy zerlegen. Als Punkte xk wählen wir dann jene K Mittelpunkte dieser Rechtecke, die in Ω liegen. K wird umso größer, je engmaschiger das Geradennetz ist, K → ∞ für δx, δy → 0. (SKIZZE) 63 Diese K Punkte haben, nach wachsender Größe geordnet, I verschiedene x-Koordinaten xi (i = 1, ..., I) und J verschiedene y-Koordinaten yj (j = 1, ..., J), wobei gilt I · J ≥ K. Zu jedem k ∈ {1, ..., K} gehört eindeutig ein Paar (i, j), sodaß xk = (xi , yj ). (371) Dabei durchläuft bei festgehaltenem i der Index j die Indexmenge n o (i) (i) (i) (i) (i) Ji = jmin , jmin + 1, ..., jmax , 1 ≤ jmin ≤ jmax ≤ J. (372) Mit δx, δy → 0 gilt I, J, K → ∞, sodaß wir für den Mittelwert (365) schreiben können " # K I 1 X X 1 X f (xk ) = lim f (xi , yj ) . (373) hf (x)ix∈Ω ≡ lim K→∞ K δx,δy→0 K i=1 k=1 j∈J i [Obwohl nicht so gekennzeichnet, hängen hier K, I, Ji , xi und yj von δx und δy ab !] Für den Flächeninhalt A = MΩ gilt bei hinreichend großem K ≫ 1 mit beliebiger Genauigkeit 1 1 A ≈ Kδxδy ⇔ ≈ δxδy (374) K A da δxδy der Flächeninhalt eines jeden der kleinen Rechtecke ist. Es folgt also " # I X X 1 hf (x)ix∈Ω = lim δx lim δy f (xi , yj ) . (375) δy→0 A δx→0 i=1 j∈J i In der eckigen Klammer steht ein gewöhnliches Integral, Z yO (xi ) X lim δy f (xi , yj ) ≡ dy f (xi , y). δy→0 (376) yU (xi ) j∈Ji Die Integrationsgrenzen yU,O (xi ) sind die y-Koordinaten des unteren (U) bzw. oberen (O) Randes von Ω bei x = xi . Der Limes δx → 0 ergibt ein zweites solches Integral, Z Z yO (x) 1 xR hf (x)ix∈Ω = dx dy f (x, y), (377) A xL yU (x) mit den minimalen (L) bzw. maximalen (R) x-Koordinaten xL,R am Rand von Ω . Dies ist die allgemeine Berechnungsformel für 2D Bereichsintegrale in kartesischen Koordinaten. Bsp. 1c: Für Bsp. 1b sind die Integrationsgrenzen in Gl. (377) gegeben durch √ (378) xL = 0, xR = R, yU (x) ≡ 0, yO (x) = R2 − x2 . R 2 Für das Bereichsintegral Ω d x f (x) ≡ A · hf (x)ix∈Ω folgt also Z R √ Z R Z √R2 −x2 Z x R2 − x2 xy 2 2 2 = (379) dx R − x + dx dy 1 + d x f (x) = 5 5 2 0 0 0 Ω und schließlich, durch x-Integration, Z πR2 R4 R2 2 d x f (x) = + ⇒ hf (x)ix∈Ω = 1 + . (380) 4 40 10π Ω 64 5.2.3 Ebene Polarkoordinaten Die Berechnung eines Bereichsintegrals vereinfacht sich oft, wenn man statt der kartesischen krummlinige Koordinaten wählt, die der Geometrie des Integrationsbereichs Ω angepaßt sind. Besonders wichtig sind ebene Polarkoordinaten (r, φ), x = r cos φ, y = r sin φ. (381) Bsp. 1d: Die Funktion aus Bsp. 1ab lautet in Polarkoordinaten xy r 2 cos φ sin φ f (x, y) = 1 + =1+ =: f˜(r, φ). 5 5 (382) Wiederum überziehen wir den Integrationsbereich Ω mit einem feinen Netz aus Koordinatenlinien, welche jetzt vom Ursprung auslaufende Strahlen und konzentrische Kreisbogen um diesen sind. Diese teilen die xy- bzw. rφ-Ebene in viele kleine Kreisringausschnitte einheitlicher Dicke δr bzw. Bogenlänge δφ auf. Zur Berechnung von hf (x)ix∈Ω wählen wir wieder jene Mittelpunkte x̃k dieser Kreisringausschnitte, die in Ω liegen. Diese Punkte liegen auf I verschiedenen Kreibogen mit Radien ri (i = 1, ..., I) und auf insgesamt J verschiedenen radialen Strahlen mit Polarwinkeln φj (i = 1, ..., J). Sie sind jedoch, im Gegensatz zu den Mittelpunkten der Rechtecke aus vorigem Abschnitt, nicht gleichmäßig über Ω verteilt. Die Flächeninhalte δA der Kreisringausschnitte, δA ≈ δr · rδφ, (383) sind nämlich nicht einheitlich, sondern r-abhängig. Wir müssen sie daher in der Summe entsprechend gewichten. Statt Gl. (373) haben wir jetzt # " I I X X X X 1 δr · ri δφ ˜ hf (x)ix∈Ω = lim δφf˜(ri , φj ) (384) . δr ri lim f (ri , φj ) ≡ lim δφ→0 δr→0 δr,δφ→0 A A i=1 i=1 j∈J j∈J i i Ausführung der Grenzwerte liefert nun das Doppelintegral Z Z rmax Z φmax (r) 2 d x f (x) ≡ A · hf (x)ix∈Ω = dr r dφ f˜(r, φ). rmin Ω Bsp. 1e: Für die Funktion aus Bsp. 1d erhalten wir Z Z R Z π/2 r 2 cos φ sin φ 2 d x f (x) = MΩ + dr r dφ 5 Ω 0 0 Z π/2 πR2 1 R4 = dφ cos φ sin φ + 4 5 4 0 Z πR2 R4 πR2 R4 1 + du u = + . = 4 20 0 4 40 65 (385) φmin (r) (386) 5.3 5.3.1 Partielle Ableitungen Definition Eine Funktion f (x1 , ..., xn ) mit n Variablen x1 , ..., xn hat nicht eine “Ableitung”, sondern n im allg. verschiedene sog. partielle Ableitungen. Diese sind so definiert, daß je n − 1 der Variablen als Konstanten (oder Parameter) aufgefaßt werden und nach der verbleibenden einzelnen Variable wie bekannt die gewöhnliche Ableitung gebildet wird. Dies sei an einem einfachen Beispiel im Fall n = 2 (mit x1 =: x und x2 =: y) erläutert: Bsp. 2: Die partiellen Ableitungen von f (x, y) = x2 y 3 sind ∂ f (x, y) = 2xy 3, ∂x ∂ f (x, y) = 3x2 y 2 . ∂y (387) Bem.: (1) Das Symbol “∂“, als Kontrast zu ”d“, soll betonen, daß neben der Variable, nach der differenziert wird, noch andere unabhängige Variablen existieren. (2) Die beiden partiellen Ableitungen ∂f /∂x und ∂f /∂y sind, wie f selbst, Funktionen von x und y. Man schreibt dafür auch ∂ f (x, y) =: fx (x, y), ∂x ∂ f (x, y) =: fy (x, y). ∂y Bsp. 3: Die Funktion f (x, y) = exy cos(x2 ) hat die partiellen Ableitungen fx (x, y) = exy y cos(x2 ) − 2x sin(x2 ) , fy (x, y) = xexy cos(x2 ). 5.3.2 (388) (389) Anschauliche Deutung Die Schnittkurve des 3D-Plots der Funktion f (x, y) mit der zur xz-Ebene parallelen Ebene bei y = y0 hat bei x = x0 die Steigung m = fx (x0 , y0 ) (in x-Richtung). Entsprechendes gilt für die partielle Ableitung fy (x0 , y0 ) nach y. 66 (390) 5.3.3 Der Gradient Die beiden partiellen Ableitungen der Funktion f (x, y) können als Komponenten eines Spaltenvektors aufgefaßt werden, fx (x, y) Gf (x, y) := ≡ ∇f (x, y). (391) fy (x, y) Dadurch wird jedem Punkt (x, y) der xy-Ebene ein Spaltenvektor zugeordnet, der als Gradient der Funktion f an der Stelle (x, y) bezeichnet wird. Da dieser Vektor von Ort zu Ort auf der xy-Ebene variiert, spricht man auch von einem Vektorfeld. Bsp. 1b: Wir betrachten nochmals die Funktion aus Bsp. 1a und ihren Gradienten, xy 1 y . (392) Gf (x, y) = f (x, y) = 1 + , 5 5 x Wir werten diesen Gradienten an verschiedenen Stellen (x, y) der xy-Ebene aus, f (x, y) y=2 y=1 y=0 y = −1 y = −2 x = −2 0.4 −0.4 0.2 −0.4 0 −0.4 −0.2 −0.4 −0.4 −0.4 x = −1 x=0 x=1 x=2 0.4 0.4 0.4 0.4 −0.2 0 0.2 0.4 0.2 0.2 0.2 0.2 −0.2 0 0.2 0.4 0 0 0 0 −0.2 0 0.2 0.4 −0.2 −0.2 −0.2 −0.2 −0.2 0 0.2 0.4 −0.4 −0.4 −0.4 −0.4 −0.2 0 0.2 0.4 y x 67 (393) Der Gradient einer Funktion hat eine sehr anschauliche Bedeutung. Als Vektor in der xy-Ebene zeigt Gf (x, y) in jene Richtung, in die man vom Punkt (x, y) aus gehen muß, um den schnellsten Anstieg des Funktionswertes zu erzielen. 5.4 Extrema Wir beschränken uns der Einfachheit halber wieder auf Funktionen f (x, y) ≡ f (r) von zwei Variablen x und y. Die Verallgemeinerung ist dann selbsterklärend. 5.4.1 Definition Def.: Die Funktion f (r) hat bei r = r 0 ein (lokales) Maximum, wenn es in der xy-Ebene einen Kreis mit Mittelpunkt r 0 und endlichem Radius ǫ > 0 gibt, sodaß gilt f (r) < f (r 0 ) ∀ r 6= r 0 mit |r − r 0 | < ǫ. (394) f (r) hat bei r = r 0 ein Minimum, wenn die Funktion −f (r) dort ein Maximum hat. Eine notwendige Bedingung für ein Extremum (Maximum oder Minimum) bei r = r0 ist offenbar das Verschwinden des Gradienten an dieser Stelle, f (r0 ) = min(max) ⇒ fx (r0 ) = fy (r 0 ) = 0. (395) Diese Bedingung ist aber nicht hinreichend für ein Extremum, wie Bsp. 1 mit der Funktion f (r) = 1 + 15 xy zeigt. Deren Gradient verschwindet bei r 0 = 0, obwohl dort offensichtlich weder ein Maximum noch ein Minimum (sondern ein Sattelpunkt) vorliegt. 5.4.2 Taylor-Entwicklung und Hesse-Matrix Für ein hinreichendes Kriterium brauchen wir die zweiten Ableitungen von f , fxx (r) = ∂ ∂ 2 f (r) fx (r) ≡ , ∂x ∂x2 fxy (r) = ∂ 2 f (r) = fyx (r), ∂x∂y fyy (r) = ∂ 2 f (r) . (396) ∂y 2 Die Taylor-Entwicklung einer Funktion f (r) = f (x, y) mit zwei Variablen – um den Entwicklungspunkt r0 ≡ (x0 , y0 ) = 0 – ist gegeben durch (Übungen!), i h i 1h f (r) = f (r0 ) + fx (r 0 ) x + fy (r 0 ) y + fxx (r 0 ) x2 + 2fxy (r 0 ) xy + fyy (r 0 ) y 2 + ...(397) 2 Im Fall r 0 6= 0 sind die Faktoren x und y durch (x − x0 ) bzw. (y − y0 ) zu ersetzen. 68 1 1−u = 1 + u + u2 + ... gilt i h i 1h 1 = 1 + 4x + 3y + 32x2 + 48xy + 18y 2 + ... f (x, y) := 1 − (4x + 3y) 2 Bsp.: Wegen (398) Tatsächlich gilt (nachrechnen!): fx (0) = 4, fy (0) = 3, fxx (0) = 32, 2fxy (0) = 48, etc. Bem.: Mit dem Gradienten Gf (r0 ) und der Hesse-Matrix H f (r0 ) von f bei r = r0 , fx (r0 ) fxx (r0 ) fxy (r 0 ) Gf (r0 ) = , H f (r 0 ) = , (399) fy (r0 ) fyx (r 0 ) fyy (r0 ) läßt sich die Taylor-Entwicklung um r = r 0 in Matrix-Form schreiben, f (r) = f (r0 ) + Gf (r 0 ) · (r−r0 ) + 5.4.3 1 (r−r0 ) · H f (r 0 ) ◦ (r−r0 ) + ... 2 (400) Hinreichendes Kriterium Sei nun Gf (r 0 ) = 0. Dann ist der Punkt r 0 also ein mögliches Extremum von f . Dann entscheidet offenbar der quadratische Term der Taylor-Entwicklung um r = r0 , 1 (r−r 0 ) · H f (r 0 ) ◦ (r−r 0 ). (401) 2 Als symmetrische Matrix hat H f (r 0 ) zwei zueinander orthogonale Eigenvektoren v1 , v2 (die wir als Einheitsvektoren wählen) zu reellen Eigenwerten λ1 bzw. λ2 , H f (r 0 ) ◦ v n = λn v n , vn · v m = δn,m n, m ∈ {1, 2} . (402) q(r) = Liegt nun r in der xy-Ebene irgendwo auf dem Kreis mit Radius ǫ um r 0 , so gilt r − r 0 = ǫ(av 1 + bv 2 ), mit zwei Zahlen a, b mit a2 + b2 = 1. Folglich gilt ǫ2 ǫ2 (av 1 + bv 2 ) · (aλ1 v 1 + bλ2 v2 ) = (λ1 a2 + λ2 b2 ). 2 2 2 2 OBdA sei λ1 ≤ λ2 . Wegen a + b = 1 gilt also insbesondere q(r) = (403) ǫ2 ǫ2 λ1 ≤ q(r) ≤ λ2 . (404) 2 2 Wir sehen also: Sind etwa beide EWe positiv, λ1 , λ2 > 0, so gilt q(r) > 0 ∀ r 6= r0 . Wegen q(r0 ) = 0 hat dann f (r) bei r = r0 ein Minimum. Es folgt der Satz: (a) Ist Gf (r 0 ) = 0 und sind alle EWe von H f (r0 ) positiv (negativ), so liegt bei r = r0 ein Minimum (Maximum) der Funktion f (r) vor. (b) Haben mindestens zwei EWe entgegengesetzte Vorzeichen, so liegt ein Sattelpunkt vor. (c) Ist mindestens ein EW gleich null und haben alle übrigen EWe das gleiche Vorzeichen, so sind für eine Entscheidung höhere Ableitungen von f erforderlich. 69 5.4.4 Beispiel Die Funktion f (x, y) = xye−(x 2 +y 2 )/2 fx (x, y) = (1 − x2 )y e−(x hat die ersten partiellen Ableitungen 2 +y 2 )/2 fy (x, y) = x(1 − y 2) e−(x , 2 +y 2 )/2 . (405) Die Bedingung fx (x, y) = 0 ist also für jeden Punkt der xy-Ebene erfüllt, der auf einer der drei Geraden x = ±1 oder y = 0 liegt. Entsprechend ist die Bedingung fy (x, y) = 0 für jeden Punkt erfüllt, der auf einer der drei Geraden y = ±1 oder x = 0 liegt. Beide Bedingungen zugleich sind also in genau fünf diskreten Punkten erfüllt, xA = (1, 1), xB = (−1, 1), xC = (−1, −1), xD = (1, −1), xE = (0, 0). (406) Dies sind die einzigen Punkte der xy-Ebene, die als Extremstellen der Funktion f (x, y) in Frage kommen. Mit den zweiten partiellen Ableitungen fxx (x, y) = (x2 − 3)xy e−(x 2 +y 2 )/2 , −(x2 +y 2 )/2 fxy (x, y) = (1 − x2 )(1 − y 2 ) e −(x2 +y 2 )/2 fyy (x, y) = (y 2 − 3)xy e ≡ fyx (x, y), (407) folgt für die Hesse-Matrix f H (xA ) = −2e−1 0 0 −2e−1 = H f (xC ). (408) Die Eigenwerte dieser Diagonalmatrix sind die Diagonalelemente. Da beide negativ sind, liegt sowohl bei xA als auch bei xC jeweils ein Maximum vor. Entsprechend findet man bei xB und xD je zwei positive Eigenwerte, sodaß dort Minima vorliegen. Schließlich gilt 0 1 f H (xE ) = = H f (xC ). (409) 1 0 Mit dem charakteristischen Polynom χ(λ) = λ2 − 1 haben die Eigenwerte dieser Matrix entgegengesetzte Vorzeichen, was bedeutet, daß bei xE weder ein Maximum noch ein Minimum (sondern ein Sattelpunkt) vorliegt. 70