5 Funktionen mit mehreren Variablen

Transcrição

5 Funktionen mit mehreren Variablen
5
Funktionen mit mehreren Variablen
Ein Ausdruck wie etwa
f (x, y, z) =
x2 y
z
(356)
läßt sich als Funktion f der n = 3 unabhängigen Variablen x, y und z auffassen.
Funktionswerte sind etwa f (1, 2, 3) = 32 , f (2, 3, 1) = 12 und f (2, 2, 2) = 4.
Der Definitionsbereich dieser Funktion ist offenbar
n
o
3 Df = (x, y, z) ∈ R z 6= 0 ⊆ R3 .
(357)
Für beliebige Werte von n ist es sinnvoll, die Variablen x1 , x2 , ..., xn zu nennen
und sie als die Komponenten eines variablen Spaltenvektors x ∈ Rn aufzufassen,
Df ⊆ Rn .
f (x1 , x2 , ..., xn ) ≡ f (x),
5.1
(358)
3D-Plot
Eine Funktion f (x, y) mit zwei Variablen x, y läßt sich als 3D “Landschaft” interpretieren,
indem man zu jedem Punkt (x, y) auf der xy-Ebene den Funktionswert z = f (x, y) als
Höhe senkrecht über dieser Ebene aufträgt. In der Zeichenebene erfordert dies natürlich
eine perspektivische Darstellung.
Bsp. 1a: Wir wollen einen solchen 3D-Plot der Funktion
f (x, y) = 1 +
xy
5
(359)
zeichnen. Dazu benötigen wir eine Wertetabelle:
f (x, y) x = −2 x = −1 x = 0 x = 1 x = 2
y=2
0.2
0.6
1.0
1.4
1.8
y=1
0.6
0.8
1.0
1.2
1.4
y=0
1.0
1.0
1.0
1.0
1.0
1.4
1.2
1.0
0.8
0.6
y = −1
y = −2
1.8
1.4
1.0
0.6
0.2
61
(360)
z = f (x, y)
y
x
5.2
Bereichsintegrale
Wir wollen den Integralbegriff von Funktionen f (x) mit einer (n = 1) Variable x,
Z
a
b
K
b−aX
f (xk ),
dx f (x) = lim
K→∞ K
k=1
xk := a + k
b−a
,
K
(361)
auf den Fall von Funktionen mit mehreren (n > 1) Variablen verallgemeinern.
Obiges Integral ist gleich dem Mittelwert von f (x) auf dem Integrationsbereich [a, b],
K
1 X
f (xk ),
f (x) x∈[a,b] = lim
K→∞ K
k=1
(362)
multipliziert mit dessen Länge b − a.
[Für nicht-negative Funktionen f (x) ≥ 0 ist dies gerade die Fläche unter ihrem Graphen.]
Diese Beobachtung legen wir der Definition des Bereichsintegrals zugrunde.
5.2.1
Definition
Wir betrachten eine Funktion f mit n Variablen und Definitionsbereich Df ⊆ Rn ,
f : Df → R,
x 7→ y = f (x) ≡ f (x1 , ..., xn ),
(363)
sowie einen in Df enthaltenen Bereich Ω ⊆ Df . Im Fall n = 1 ist Ω ein Intervall [a, b],
bei n = 2 ein Ausschnitt der x1 x2 -Ebene, bei n = 3 ein Volumenausschnitt des R3 , etc.
Das Maß MΩ von Ω ist dessen Inhalt, im Fall n = 1 also eine Länge, bei n = 2 ein
Flächeninhalt, bei n = 3 ein Volumeninhalt, etc.
R
Def.: Das Bereichsintegral Ω dn x f (x) der Funktion f über den Bereich Ω ist das Produkt
aus dem Maß MΩ des Bereichs Ω und dem Mittelwert hf iΩ der Funktion auf Ω ,
Z
(364)
dn x f (x) := MΩ · f (x) x∈Ω .
Ω
62
Zur Berechnung dieses Mittelwerts müssen wir möglichst viele (K ≫ 1) Punkte xk
möglichst gleichmäßig über den Bereich Ω verteilen. Im Limes K → ∞ gilt dann
hf (x)ix∈Ω
5.2.2
K
1 X
f (xk ).
= lim
K→∞ K
k=1
(365)
Berechnung in kartesischen Koordinaten
Bsp. 1b: Wir betrachten wieder die Funktion aus Bsp. 1a mit n = 2 Variablen,
f (x) ≡ f (x1 , x2 ) = 1 +
x1 x2
,
5
Df = R 2 .
(366)
Als Integrationsbereich wählen wir den Viertelkreis
Ω=
n
o
(x1 , x2 ) ∈ R2 x1 , x2 ≥ 0 und x21 + x22 ≤ R2 ,
MΩ =
πR2
.
4
(367)
Am 3D-Plot dieser Funktion (Abschnitt 5.1) erkennen wir
min f (x) = f (0, 0) = 1,
x∈Ω
√
√
max f (x) = f ( R2 2 , R2 2 ) = 1 +
x∈Ω
R2
.
10
(368)
Der Mittelwert hf (x)ix∈Ω liegt somit irgendwo zwischen diesen beiden Extremwerten,
1 < hf (x)ix∈Ω < 1 +
R2
.
10
(369)
Zur exakten Berechnung dieses Mittelwerts schreiben wir
x = (x1 , x2 ) = (x, y)
(370)
und wählen ein feinmaschiges Netz aus achsenparallelen Geraden, welche die xy-Ebene
(x1 x2 -Ebene) in kleine Rechtecke mit einheitlichen Seitenlängen δx bzw. δy zerlegen.
Als Punkte xk wählen wir dann jene K Mittelpunkte dieser Rechtecke, die in Ω liegen.
K wird umso größer, je engmaschiger das Geradennetz ist, K → ∞ für δx, δy → 0.
(SKIZZE)
63
Diese K Punkte haben, nach wachsender Größe geordnet, I verschiedene x-Koordinaten
xi (i = 1, ..., I) und J verschiedene y-Koordinaten yj (j = 1, ..., J), wobei gilt I · J ≥ K.
Zu jedem k ∈ {1, ..., K} gehört eindeutig ein Paar (i, j), sodaß
xk = (xi , yj ).
(371)
Dabei durchläuft bei festgehaltenem i der Index j die Indexmenge
n
o
(i)
(i)
(i)
(i)
(i)
Ji = jmin , jmin + 1, ..., jmax
,
1 ≤ jmin ≤ jmax
≤ J.
(372)
Mit δx, δy → 0 gilt I, J, K → ∞, sodaß wir für den Mittelwert (365) schreiben können
"
#
K
I
1 X X
1 X
f (xk ) = lim
f (xi , yj ) .
(373)
hf (x)ix∈Ω ≡ lim
K→∞ K
δx,δy→0 K
i=1
k=1
j∈J
i
[Obwohl nicht so gekennzeichnet, hängen hier K, I, Ji , xi und yj von δx und δy ab !] Für
den Flächeninhalt A = MΩ gilt bei hinreichend großem K ≫ 1 mit beliebiger Genauigkeit
1
1
A ≈ Kδxδy
⇔
≈ δxδy
(374)
K
A
da δxδy der Flächeninhalt eines jeden der kleinen Rechtecke ist. Es folgt also
"
#
I
X
X
1
hf (x)ix∈Ω =
lim
δx lim
δy f (xi , yj ) .
(375)
δy→0
A δx→0 i=1
j∈J
i
In der eckigen Klammer steht ein gewöhnliches Integral,
Z yO (xi )
X
lim
δy f (xi , yj ) ≡
dy f (xi , y).
δy→0
(376)
yU (xi )
j∈Ji
Die Integrationsgrenzen yU,O (xi ) sind die y-Koordinaten des unteren (U) bzw. oberen (O)
Randes von Ω bei x = xi . Der Limes δx → 0 ergibt ein zweites solches Integral,
Z
Z yO (x)
1 xR
hf (x)ix∈Ω =
dx
dy f (x, y),
(377)
A xL
yU (x)
mit den minimalen (L) bzw. maximalen (R) x-Koordinaten xL,R am Rand von Ω . Dies ist
die allgemeine Berechnungsformel für 2D Bereichsintegrale in kartesischen Koordinaten.
Bsp. 1c: Für Bsp. 1b sind die Integrationsgrenzen in Gl. (377) gegeben durch
√
(378)
xL = 0,
xR = R,
yU (x) ≡ 0,
yO (x) = R2 − x2 .
R 2
Für das Bereichsintegral Ω d x f (x) ≡ A · hf (x)ix∈Ω folgt also
Z R √
Z R Z √R2 −x2 Z
x R2 − x2 xy 2
2
2
=
(379)
dx R − x +
dx
dy 1 +
d x f (x) =
5
5
2
0
0
0
Ω
und schließlich, durch x-Integration,
Z
πR2 R4
R2
2
d x f (x) =
+
⇒
hf (x)ix∈Ω = 1 +
.
(380)
4
40
10π
Ω
64
5.2.3
Ebene Polarkoordinaten
Die Berechnung eines Bereichsintegrals vereinfacht sich oft, wenn man statt der kartesischen krummlinige Koordinaten wählt, die der Geometrie des Integrationsbereichs Ω
angepaßt sind. Besonders wichtig sind ebene Polarkoordinaten (r, φ),
x = r cos φ,
y = r sin φ.
(381)
Bsp. 1d: Die Funktion aus Bsp. 1ab lautet in Polarkoordinaten
xy
r 2 cos φ sin φ
f (x, y) = 1 +
=1+
=: f˜(r, φ).
5
5
(382)
Wiederum überziehen wir den Integrationsbereich Ω mit einem feinen Netz aus Koordinatenlinien, welche jetzt vom Ursprung auslaufende Strahlen und konzentrische Kreisbogen um diesen sind. Diese teilen die xy- bzw. rφ-Ebene in viele kleine Kreisringausschnitte
einheitlicher Dicke δr bzw. Bogenlänge δφ auf. Zur Berechnung von hf (x)ix∈Ω wählen
wir wieder jene Mittelpunkte x̃k dieser Kreisringausschnitte, die in Ω liegen.
Diese Punkte liegen auf I verschiedenen Kreibogen mit Radien ri (i = 1, ..., I) und auf
insgesamt J verschiedenen radialen Strahlen mit Polarwinkeln φj (i = 1, ..., J). Sie sind
jedoch, im Gegensatz zu den Mittelpunkten der Rechtecke aus vorigem Abschnitt, nicht
gleichmäßig über Ω verteilt. Die Flächeninhalte δA der Kreisringausschnitte,
δA ≈ δr · rδφ,
(383)
sind nämlich nicht einheitlich, sondern r-abhängig. Wir müssen sie daher in der Summe
entsprechend gewichten. Statt Gl. (373) haben wir jetzt
#
"
I
I X
X
X
X
1
δr · ri δφ ˜
hf (x)ix∈Ω = lim
δφf˜(ri , φj ) (384)
.
δr ri lim
f (ri , φj ) ≡
lim
δφ→0
δr→0
δr,δφ→0
A
A
i=1
i=1 j∈J
j∈J
i
i
Ausführung der Grenzwerte liefert nun das Doppelintegral
Z
Z rmax
Z φmax (r)
2
d x f (x) ≡ A · hf (x)ix∈Ω =
dr r
dφ f˜(r, φ).
rmin
Ω
Bsp. 1e: Für die Funktion aus Bsp. 1d erhalten wir
Z
Z R
Z π/2
r 2 cos φ sin φ
2
d x f (x) = MΩ +
dr r
dφ
5
Ω
0
0
Z
π/2
πR2 1 R4
=
dφ cos φ sin φ
+
4
5 4 0
Z
πR2 R4
πR2 R4 1
+
du u =
+
.
=
4
20 0
4
40
65
(385)
φmin (r)
(386)
5.3
5.3.1
Partielle Ableitungen
Definition
Eine Funktion f (x1 , ..., xn ) mit n Variablen x1 , ..., xn hat nicht eine “Ableitung”, sondern
n im allg. verschiedene sog. partielle Ableitungen. Diese sind so definiert, daß je n − 1 der
Variablen als Konstanten (oder Parameter) aufgefaßt werden und nach der verbleibenden
einzelnen Variable wie bekannt die gewöhnliche Ableitung gebildet wird. Dies sei an einem
einfachen Beispiel im Fall n = 2 (mit x1 =: x und x2 =: y) erläutert:
Bsp. 2: Die partiellen Ableitungen von f (x, y) = x2 y 3 sind
∂
f (x, y) = 2xy 3,
∂x
∂
f (x, y) = 3x2 y 2 .
∂y
(387)
Bem.: (1) Das Symbol “∂“, als Kontrast zu ”d“, soll betonen, daß neben der Variable,
nach der differenziert wird, noch andere unabhängige Variablen existieren.
(2) Die beiden partiellen Ableitungen ∂f /∂x und ∂f /∂y sind, wie f selbst, Funktionen
von x und y. Man schreibt dafür auch
∂
f (x, y) =: fx (x, y),
∂x
∂
f (x, y) =: fy (x, y).
∂y
Bsp. 3: Die Funktion f (x, y) = exy cos(x2 ) hat die partiellen Ableitungen
fx (x, y) = exy y cos(x2 ) − 2x sin(x2 ) ,
fy (x, y) = xexy cos(x2 ).
5.3.2
(388)
(389)
Anschauliche Deutung
Die Schnittkurve des 3D-Plots der Funktion f (x, y) mit der zur xz-Ebene parallelen Ebene
bei y = y0 hat bei x = x0 die Steigung
m = fx (x0 , y0 )
(in x-Richtung). Entsprechendes gilt für die partielle Ableitung fy (x0 , y0 ) nach y.
66
(390)
5.3.3
Der Gradient
Die beiden partiellen Ableitungen der Funktion f (x, y) können als Komponenten eines
Spaltenvektors aufgefaßt werden,
fx (x, y)
Gf (x, y) :=
≡ ∇f (x, y).
(391)
fy (x, y)
Dadurch wird jedem Punkt (x, y) der xy-Ebene ein Spaltenvektor zugeordnet, der als
Gradient der Funktion f an der Stelle (x, y) bezeichnet wird. Da dieser Vektor von Ort
zu Ort auf der xy-Ebene variiert, spricht man auch von einem Vektorfeld.
Bsp. 1b: Wir betrachten nochmals die Funktion aus Bsp. 1a und ihren Gradienten,
xy
1 y
.
(392)
Gf (x, y) =
f (x, y) = 1 + ,
5
5 x
Wir werten diesen Gradienten an verschiedenen Stellen (x, y) der xy-Ebene aus,
f (x, y)
y=2
y=1
y=0
y = −1
y = −2
x = −2
0.4
−0.4 0.2
−0.4 0
−0.4
−0.2
−0.4 −0.4
−0.4
x = −1
x=0
x=1
x=2
0.4
0.4
0.4
0.4
−0.2 0 0.2 0.4 0.2
0.2
0.2
0.2
−0.2 0 0.2 0.4 0
0
0
0
−0.2
0
0.2
0.4
−0.2
−0.2
−0.2
−0.2
−0.2 0 0.2 0.4 −0.4
−0.4
−0.4
−0.4
−0.2
0
0.2
0.4
y
x
67
(393)
Der Gradient einer Funktion hat eine sehr anschauliche Bedeutung. Als Vektor in der
xy-Ebene zeigt Gf (x, y) in jene Richtung, in die man vom Punkt (x, y) aus gehen muß,
um den schnellsten Anstieg des Funktionswertes zu erzielen.
5.4
Extrema
Wir beschränken uns der Einfachheit halber wieder auf Funktionen f (x, y) ≡ f (r) von
zwei Variablen x und y. Die Verallgemeinerung ist dann selbsterklärend.
5.4.1
Definition
Def.: Die Funktion f (r) hat bei r = r 0 ein (lokales) Maximum, wenn es in der xy-Ebene
einen Kreis mit Mittelpunkt r 0 und endlichem Radius ǫ > 0 gibt, sodaß gilt
f (r) < f (r 0 )
∀ r 6= r 0 mit |r − r 0 | < ǫ.
(394)
f (r) hat bei r = r 0 ein Minimum, wenn die Funktion −f (r) dort ein Maximum hat.
Eine notwendige Bedingung für ein Extremum (Maximum oder Minimum) bei r = r0
ist offenbar das Verschwinden des Gradienten an dieser Stelle,
f (r0 ) = min(max)
⇒
fx (r0 ) = fy (r 0 ) = 0.
(395)
Diese Bedingung ist aber nicht hinreichend für ein Extremum, wie Bsp. 1 mit der Funktion
f (r) = 1 + 15 xy zeigt. Deren Gradient verschwindet bei r 0 = 0, obwohl dort offensichtlich
weder ein Maximum noch ein Minimum (sondern ein Sattelpunkt) vorliegt.
5.4.2
Taylor-Entwicklung und Hesse-Matrix
Für ein hinreichendes Kriterium brauchen wir die zweiten Ableitungen von f ,
fxx (r) =
∂
∂ 2 f (r)
fx (r) ≡
,
∂x
∂x2
fxy (r) =
∂ 2 f (r)
= fyx (r),
∂x∂y
fyy (r) =
∂ 2 f (r)
. (396)
∂y 2
Die Taylor-Entwicklung einer Funktion f (r) = f (x, y) mit zwei Variablen –
um den Entwicklungspunkt r0 ≡ (x0 , y0 ) = 0 – ist gegeben durch (Übungen!),
i
h
i 1h
f (r) = f (r0 ) + fx (r 0 ) x + fy (r 0 ) y + fxx (r 0 ) x2 + 2fxy (r 0 ) xy + fyy (r 0 ) y 2 + ...(397)
2
Im Fall r 0 6= 0 sind die Faktoren x und y durch (x − x0 ) bzw. (y − y0 ) zu ersetzen.
68
1
1−u
= 1 + u + u2 + ... gilt
i
h
i 1h
1
= 1 + 4x + 3y + 32x2 + 48xy + 18y 2 + ...
f (x, y) :=
1 − (4x + 3y)
2
Bsp.: Wegen
(398)
Tatsächlich gilt (nachrechnen!): fx (0) = 4, fy (0) = 3, fxx (0) = 32, 2fxy (0) = 48, etc.
Bem.: Mit dem Gradienten Gf (r0 ) und der Hesse-Matrix H f (r0 ) von f bei r = r0 ,
fx (r0 )
fxx (r0 ) fxy (r 0 )
Gf (r0 ) =
,
H f (r 0 ) =
,
(399)
fy (r0 )
fyx (r 0 ) fyy (r0 )
läßt sich die Taylor-Entwicklung um r = r 0 in Matrix-Form schreiben,
f (r) = f (r0 ) + Gf (r 0 ) · (r−r0 ) +
5.4.3
1
(r−r0 ) · H f (r 0 ) ◦ (r−r0 ) + ...
2
(400)
Hinreichendes Kriterium
Sei nun Gf (r 0 ) = 0. Dann ist der Punkt r 0 also ein mögliches Extremum von f .
Dann entscheidet offenbar der quadratische Term der Taylor-Entwicklung um r = r0 ,
1
(r−r 0 ) · H f (r 0 ) ◦ (r−r 0 ).
(401)
2
Als symmetrische Matrix hat H f (r 0 ) zwei zueinander orthogonale Eigenvektoren v1 , v2
(die wir als Einheitsvektoren wählen) zu reellen Eigenwerten λ1 bzw. λ2 ,
H f (r 0 ) ◦ v n = λn v n ,
vn · v m = δn,m
n, m ∈ {1, 2} .
(402)
q(r) =
Liegt nun r in der xy-Ebene irgendwo auf dem Kreis mit Radius ǫ um r 0 ,
so gilt r − r 0 = ǫ(av 1 + bv 2 ), mit zwei Zahlen a, b mit a2 + b2 = 1. Folglich gilt
ǫ2
ǫ2
(av 1 + bv 2 ) · (aλ1 v 1 + bλ2 v2 ) = (λ1 a2 + λ2 b2 ).
2
2
2
2
OBdA sei λ1 ≤ λ2 . Wegen a + b = 1 gilt also insbesondere
q(r) =
(403)
ǫ2
ǫ2
λ1 ≤ q(r) ≤ λ2 .
(404)
2
2
Wir sehen also: Sind etwa beide EWe positiv, λ1 , λ2 > 0, so gilt q(r) > 0 ∀ r 6= r0 .
Wegen q(r0 ) = 0 hat dann f (r) bei r = r0 ein Minimum. Es folgt der
Satz: (a) Ist Gf (r 0 ) = 0 und sind alle EWe von H f (r0 ) positiv (negativ),
so liegt bei r = r0 ein Minimum (Maximum) der Funktion f (r) vor.
(b) Haben mindestens zwei EWe entgegengesetzte Vorzeichen, so liegt ein Sattelpunkt vor.
(c) Ist mindestens ein EW gleich null und haben alle übrigen EWe das gleiche Vorzeichen,
so sind für eine Entscheidung höhere Ableitungen von f erforderlich.
69
5.4.4
Beispiel
Die Funktion f (x, y) = xye−(x
2 +y 2 )/2
fx (x, y) = (1 − x2 )y e−(x
hat die ersten partiellen Ableitungen
2 +y 2 )/2
fy (x, y) = x(1 − y 2) e−(x
,
2 +y 2 )/2
.
(405)
Die Bedingung fx (x, y) = 0 ist also für jeden Punkt der xy-Ebene erfüllt, der auf einer
der drei Geraden x = ±1 oder y = 0 liegt. Entsprechend ist die Bedingung fy (x, y) = 0
für jeden Punkt erfüllt, der auf einer der drei Geraden y = ±1 oder x = 0 liegt. Beide
Bedingungen zugleich sind also in genau fünf diskreten Punkten erfüllt,
xA = (1, 1),
xB = (−1, 1),
xC = (−1, −1),
xD = (1, −1),
xE = (0, 0).
(406)
Dies sind die einzigen Punkte der xy-Ebene, die als Extremstellen der Funktion f (x, y)
in Frage kommen. Mit den zweiten partiellen Ableitungen
fxx (x, y) = (x2 − 3)xy e−(x
2 +y 2 )/2
,
−(x2 +y 2 )/2
fxy (x, y) = (1 − x2 )(1 − y 2 ) e
−(x2 +y 2 )/2
fyy (x, y) = (y 2 − 3)xy e
≡ fyx (x, y),
(407)
folgt für die Hesse-Matrix
f
H (xA ) =
−2e−1
0
0
−2e−1
= H f (xC ).
(408)
Die Eigenwerte dieser Diagonalmatrix sind die Diagonalelemente. Da beide negativ sind,
liegt sowohl bei xA als auch bei xC jeweils ein Maximum vor. Entsprechend findet man
bei xB und xD je zwei positive Eigenwerte, sodaß dort Minima vorliegen. Schließlich gilt
0 1
f
H (xE ) =
= H f (xC ).
(409)
1 0
Mit dem charakteristischen Polynom χ(λ) = λ2 − 1 haben die Eigenwerte dieser Matrix
entgegengesetzte Vorzeichen, was bedeutet, daß bei xE weder ein Maximum noch ein
Minimum (sondern ein Sattelpunkt) vorliegt.
70