Lineare Algebra - Goethe

Transcrição

Skript
Lineare Algebra
Prof. Dr. C.P. Schnorr
http://www.mi.informatik.uni-frankfurt.de
Johann-Wolfgang-Goethe Universität
Fachbereiche Mathematik und Informatik
Frankfurt am Main
21. Juli 2000
Das vorliegende Skript ist eine Ausarbeitung der Vorlesungen Lineare Algebra I“ und
”
Lineare Algebra II“ aus dem Wintersemester 1998/99 und Sommersemester 1999 an
”
der Johann-Wolfgang-Goethe Universität, Frankfurt am Main.
In der vorliegenen Version sind Fehler der Auflage vom 4.Jan.2000 behoben (dank der
detailierten Fehlerliste von Thomas Rupp). Für Hinweise auf weitere Fehler sind wir
weiterhin dankbar.
Von Roger Fischlin, Marc Fischlin und Matthias Rupp 1999 überarbeitet und in
LATEX 2ε gesetzt.
Inhaltsverzeichnis
Teil 1. Lineare Algebra I
Kapitel 1. Lineare Gleichungssysteme
3
§1.
Gauß-Algorithmus
3
§2.
Gauß-Algorithmus und Matrizen
9
Kapitel 2. Körper, Ringe und Gruppen
13
§1. Körper
13
§2. Ringe und Schiefkörper
19
§3. Gruppen
21
§4. Homomorphismen
23
§5. Vom Ring Z abgeleitete Körper
26
Kapitel 3. Vektorräume
29
§1. Vektorraum und Untervektorraum
29
§2. Lineare Unabhängigkeit, Basen und Dimension
32
Kapitel 4. Polynome
41
§1.
Vektorraum und Ring der Polynome
41
§2.
Division mit Rest
48
§3.
Nullstellen
51
§4.
Interpolation
55
Kapitel 5. Der Rang von Matrizen
59
§1.
Zeilenrang und Spaltenrang
59
§2.
Rang und lineare Gleichungssysteme
61
Kapitel 6. Lineare Abbildungen
§1.
Eigenschaften
63
63
iii
iv
Inhaltsverzeichnis
§2.
Darstellende Matrix
Kapitel 7. Lineare Codes
65
71
§1.
Grundbegriffe
71
§2.
Gitter und Kugelpackungen
76
§3.
Generator- und PCH-Matrix
77
§4.
Hamming-Codes
80
Kapitel 8. Direkte Summe
83
§1.
Orthogonales Komplement
83
§2.
Direkte Summe
85
Kapitel 9. Volumina und Determinanten
89
§1.
Volumina
89
§2.
Determinanten
92
§3.
Permutationen und Leibniz’sche Determinantenformel
95
§4.
Eigenschaften
99
Kapitel 10. Normalformen und Eigenwerte
105
§1.
Eigenwerte und Eigenvektoren
105
§2.
Charakteristisches Polynom
110
§3.
Normalformen
114
Kapitel 11. Euklidische Vektorräume
117
§1.
Vektornorm
117
§2.
Matrixnorm
119
§3.
Skalarprodukt
122
§4.
Orthogonale Abbildungen und Matrizen
127
Teil 2. Lineare Algebra II
Kapitel 12. Konvexe Geometrie
133
§1.
Konvexe Mengen
133
§2.
Funktionen über konvexen Mengen
142
§3.
Kegel und Farkas’ Lemma
145
§4.
Eulers Polyederformel
150
Kapitel 13. Lineare Programmierung
153
§1.
Einleitung
153
§2.
Ecken und Basislösungen
154
§3.
Simplex-Algorithmus
159
§4.
Simplex-Tableau
164
§5.
Dualität
169
Inhaltsverzeichnis
v
Kapitel 14. Reelle und komplexe Vektorräume
§1. Dualität linearer Räume
§2. Bilineare, Sesquilineare und quadratische Formen
§3. Hauptachsentransformation symmetrischer Matrizen
§4. Unitäre Endomorphismen und Matrizen
§5. Normalform selbstadjungierter Endomorphismen
173
173
176
181
184
186
Kapitel 15. Endliche Körper
§1. Charakteristik
§2. Primkörper
§3. Konstruktion endlicher Körper
§4. Struktur der multiplikativen Gruppe endlicher Körper
191
191
193
194
198
Kapitel 16. Gittertheorie
§1. Gitter
§2. Gitterreduktion
201
201
205
Anhang A. Grundbegriffe
§1. Notationen
§2. Logik
§3. Beweistechniken
§4. Mengen, Relationen und Funktionen
211
211
211
214
216
Anhang B. Übungsaufgaben
§1. Übungsblatt 1
219
219
219
220
221
222
222
223
223
224
225
225
226
227
227
227
228
228
vi
Inhaltsverzeichnis
229
229
230
230
231
Literaturverzeichnis
233
Index
235
Teil 1
Lineare Algebra I
Kapitel 1
Lineare
Gleichungssysteme
Zum Lösen linearer Gleichungssysteme lernen wir mit dem Gauß-Verfahren einen
wichtigen Algorithmus der linearen Algebra kennen.
1. Gauß-Algorithmus
Wir betrachten lineare Gleichungen der Form
a1 x1 + a2 x2 + . . . + an xn = b
über den reellen Zahlen, d.h. mit a1 , . . . , an , b ∈ R. Dabei heißen a1 , . . . , an Koeffizienten und x1 , . . . , xn Unbestimmte oder Variable. Wir suchen reelle Zahlen, die
die Gleichung erfüllen, setzt man sie für x1 , . . . , xn ein. Beim Übergang zu mehreren
Gleichungen ergibt sich ein lineares Gleichungssystem (LGS) aus m Gleichungen in
n Unbestimmten:
a11 x1 + a12 x2 + · · · + a1n xn = b1
a21 x1 + a22 x2 + · · · + a2n xn = b2
..
..
..
..
.
.
.
.
am1 x1 + am2 x2 + · · · + amn xn = bm .
(1)
Um diese Darstellung eines linearen Gleichungssystems
Pn zu vereinfachen, kann man
die i-te Gleichungen mittels Summenzeichen als
j=1 aij xj = bi schreiben. Statt
jede der m Gleichungen einzeln anzugeben, verwendet man zur Notation von linearen
Gleichungssystemen in der linearen Algebra üblicherweise Matrizen und Vektoren:
Def inition 1.1 (Matrix). Ein rechteckiges Schema A aus m Zeilen und n Spalten
mit Einträgen aij ∈ R heißt m × n-Matrix über R:


a11 · · · a1n

..  .
A = (aij ) 1≤i≤m =  ...
. 
1≤j≤n
am1 · · · amn
3
4
1. Lineare Gleichungssysteme
Im Fall m = n heißt A quadratische Matrix. Die Menge aller m × n Matrizen über R
bezeichnen wir mit Mm,n (R) oder kurz Rm×n .
Einspaltige Matrizen b ∈ Mm,1 (R) heißen Spaltenvektoren, einzeilige Matrizen
b ∈ M1,m (R) Zeilenvektoren. Wenn aus dem Kontext hervorgeht, ob es ein Spaltenoder Zeilenvektor ist, nennen wir b kurz Vektor. Die Menge Mn,1 (R) = Rn×1 der
reellwertigen Vektoren der Länge n bezeichnet man kurz als Rn , den Raum der nTupel reeller Zahlen. R3 ist zum Beispiel der uns umgebende Raum. In der Geometrie
sprechen wir auch von kartesischen Koordinaten.1
Def inition 1.2 (Matrix-Vektor-Produkt). Sei A ∈ Mm,n (R) eine m × n-Matrix und
x ∈ Rn ein Spaltenvektor. Das Matrix-Vektor-Produkt ist

P
n
a x
 j=1 1j j 


m

Ax = 
 n ···  ∈ R ,
P

amj xj
j=1
der i-te Koeffizient von Ax ist das Produkt“
”
x.
Pn
j=1 aij xj
der i-ten Zeile von A mit
Das lineare Gleichungssystem (1) schreiben wir in Matrixform als

   
a11 · · · a1n
x1
b1
 ..
..   ..  =  .. 
 .
.  .   . 
am1 · · ·
amn
xn
(2)
bm
oder kurz Ax = b für gegebene A, b und dem gesuchten x. Dabei ist x ein Unbestimmtenvektor, dessen Koordinaten x1 , . . . , xn noch zu ermitteln sind. Mit
Lös(A, b) := {x ∈ Rn | Ax = b }
bezeichnen wir die Lösungsmenge des linearen Gleichungssystems Ax = b. Man fasst
die Koeffizientenmatrix A und den Vektor b zur erweiterten Matrix (A, b)


a11 · · · a1n b1

..
..  ∈ M
(A, b) :=  ...
m,n+1 (R)
.
. 
am1 · · ·
amn bm
zusammen.
Unser Ziel ist ein schnelles, mechanisches Verfahren zum Lösen von linearen Gleichungssystemen. Die Standardmethode ist ein auf C.F. Gauß2 zurückgehender Algorithmus, der auch die Basis zahlreicher Beweise der Vorlesung bildet. Wir überführen
1Zu Ehren von René Descartes, 1596–1650, einem Wegbereiter der Mathematik der Neuzeit.
Er gilt als Begründer der systematischen analytischen Geometrie. Seine Schrift Géométrie“ gehörte
”
zu den Grundlagen, auf denen Newton und Leibniz später aufbauten.
2 Carl Friedrich Gauß, 1777–1855, war der bedeutendste Mathematiker seiner Zeit. Er lieferte in den meisten Teilgebieten der Mathematik und der Physik wichtige Beiträge, beispielsweise
in der Zahlentheorie und der Astronomie. Unter anderem gab er den ersten strengen Beweis für den
Fundamentalsatz der Algebra. Die Gauß’sche Zahlenebene trägt seinen Namen.
5
die erweiterte Matrix (A, b) schrittweise in ein leicht lösbares lineares Gleichungssystem, ohne die Lösungsmenge Lös(A, b) zu ändern:
Def inition 1.3 (Treppenform). Eine Matrix A ∈ Mm,n (R) ist in Treppenform mit
r ≥ 0 Stufen, wenn
a) a11 6= 0, . . . , arr 6= 0
b) aij = 0 für i > j und aij = 0 für i > r.
Ein lineares Gleichungssystem Ax = b bzw. die erweitere Matrix (A, b) ist in Treppenform, wenn die zugehörige Koeffizientenmatrix A Treppenform hat.
Eine Matrix in Treppenform mit

a11 a12

 0 ...

 ..
..
 .
.

 0 ···

 0 ···

 ..
 .
0 ···
r Stufen hat folgende Gestalt:

··· ···
···
· · · a1n
.. 
..
.
. 

.. 
..
..
.
.
. 

0 arr ar,r+1 · · · arn 

··· 0
0
···
0 

.. 
. 
··· ···
···
···
0
Dabei können alle Einträge bis auf a11 , . . . , arr Null sein. Bei einem lineares Gleichungssystem in Treppenform
3x1 + 3x2 − x3 = 0
x2 + x3 = 4
2x3 = 6
kann man die Lösung unmittelbar ablesen: x3 :=
x1 := 0 − 3x2 + x3 = 0.
6
2
= 3, x2 := 4 − x3 = 1 und
Lemma 1.4 (Lösung eines LGS in Treppenform). Sei A ∈ Mm,n (R) Matrix in
Treppenform mit r ≥ 0 Stufen und b ∈ Rm . Dann gilt
Lös(A, b) 6= ∅
⇐⇒
br+1 = . . . = bm = 0.
Beweis. Da die Koeffizientenmatrix A in Treppenform mit r ≥ 0 Stufen ist, hat das
lineare Gleichungssystem folgende Form:
a11 x1 + a12 x2 + · · · + a1r xr + · · · + a1n xn = b1
a22 x2 + · · · + a2r xr + · · · + a2n xn = b2
..
.
arr xr + · · · + arn xn = br
0 = br+1
..
.
0 = bm
6
Man sieht unmittelbar: Gibt es ein i ∈ {r + 1, . . . , m} mit bi 6= 0, dann hat das lineare
Gleichungssystem keine Lösung, denn die i-te Gleichung ist nicht erfüllbar, so dass
Lös(A, b) = ∅.
Sei br+1 = . . . = bm = 0. Wir zeigen, dass dann Lös(A, b) 6= ∅ ist. Wähle beliebige
xr+1 , . . . , xn ∈ R und berechne xr , xr−1 , . . . , x1 ∈ R induktiv gemäß:
xr := (br − ar,r+1 xr+1 − . . . − arn xn )/arr
xr−1 := (br−1 − ar−1,r xr − . . . − ar−1,n xn )/ar−1,r−1
..
.
x1 := (b1 − a1,2 x2 − . . . − a1,n xn )/a11 .
Die Division ist möglich, weil die Koeffizientenmatrix A in Treppenform mit r ≥ 0
Stufen ist, so dass aii 6= 0 für i = 1, . . . , r. Man überzeuge sich, dass x1 , . . . , xn eine
Lösung des linearen Gleichungssystems ist.
Diese Vorgehensweise, um zu einem linearen Gleichungssystem in Treppenform die
Lösung zu ermitteln, entspricht dem aus der Schule bekannten Verfahren. Da durch
eine Wahl der xr+1 , . . . , xn die restlichen xr , . . . , x1 eindeutig bestimmt sind, nennen
wir xr+1 , . . . , xn freie (unabhängige) Variable und xr , . . . , x1 gebundene Variable des
linearen Gleichungssystems.
Sei A ∈ Mm,n (R) und b ∈ Rm . Um das lineare Gleichungssystem Ax = b auf
Treppenform zu überführen, gehe iterativ vor. Durch Induktion über r zeigen wir:
(A, b) läßt derart transformieren, dass die ersten r Spalten von A in Treppenform
sind:
• Die Induktionsverankerung für r = 0 ist trivial, denn die 0-te Spalte von A
ist stets in Treppenform.
• Nach Induktionsvoraussetzung sind die ersten
penform:

a11 a12 · · ·
···
···

.
.
..
..
 0

 ..
..
..
..
 .
.
.
.

A =  0 ···
0
a
r−1,r−1 ar−1,r

 0 ···
0
0
ar,r

 ..
..
..
 .
.
.
0 ···
0
0
am,r
r − 1 Spalten von A in Trep···
···
···
···
a1n
..
.
..
.







ar−1,n 

ar,n 

.. 
. 
am,n
Wir schließen von r − 1 auf r. Falls aij = 0 für alle i, j ≥ r, also


ar,r · · · ar,n
 ..
..  = 0,
 .
. 
am,r · · ·
am,n
ist A bereits in Treppenform mit r Spalten. Im anderen Fall gibt es einen
Eintrag aij 6= 0 mit i, j ≥ r, und wir verfahren wie folgt:
7
(1) Vertausche Zeile und Spalte mit Indices größer oder gleich r, derart,
dass dann arr 6= 0 ist (Der Wert arr heißt Pivotelement, man wählt
einfache Pivotelemente, zum Beispiel 1).
ir
(2) Subtrahiere für i = r + 1, . . . , m das aarr
-fache der r-ten Zeile von (A, b)
von der i-ten Zeile. Dann gilt für die Elemente der r-ten Spalte mit
Index i ≥ r:
air
aneu
· arr = 0.
ir = air −
arr
Die ersten r Spalten von A sind in Treppenform.
Das Gauß-Verfahren beruht auf diesen drei Operationen:
a) Zeilenoperation: Addiere das λ-fache der i-ten Zeile von (A, b) zur j-ten Zeile
(λ ∈ R).
b) Zeilenoperation: Vertausche die i-te und die j-te Zeile.
c) Spaltenoperation: Vertausche die i-te und die j-te Spalte.
Die Lösung des linearen Gleichungssystems Ax = b bleibt bei linearen Operationen, d.h. bei Addition einer Gleichung zu einer anderen und bei Multiplikation einer
Gleichung mit einem Skalar ungleich Null, erhalten. Die Zeilenoperationen lassen die
Lösungsmenge Lös(A, b) invariant, man spricht daher auch von Äquivalenztransformationen. Beim Vertauchen der Spalten i und j werden ebenfalls im Lösungsvektor
die Koordinaten an den Stellen i und j vertauscht.
Satz 1.5 (Gauß-Algorithmus). Sei A ∈ Mm,n (R) und b ∈ Rm . Dann transformiert
der Gauß’sche Algorithmus (A, b) mit höchstens mn Zeilen- bzw. Spaltenoperationen
in Treppenform. Man erhält Lös(A, b) in O(n2 m) arithmetischen Schritten.3
Bemerkung 1.6. Mit dem Gauß-Verfahren kann man nicht nur lineare Gleichungssysteme über den reellen Zahlen R, sondern jedem beliebigen Körper K lösen, denn
Körper sind Zahlenbereiche, in denen man wie mir reellen Zahlen rechnet (wir gehen
auf Körper in Kapitel 2 ein). Matrizen und Vektoren werden für beliebige Körper
entsprechend erklärt.
Wir demonstrieren den Gauß-Algorithmus anhand eines Beispieles:
Beispiel 1.7. Betrachte folgendes, lineares Gleichungssystem Ax = b gegeben durch:
x1 + 4x2
=10
4x1 +16x2 + 7x3 =33
2x1 + 8x2 −21x3 =41
Wir wenden den Gauß-Algorithmus auf die erweiterte Matrix


1 4
0
10
 4 16
7
33
2
8 −21 41
3Eine Funktion f : N → N hat das Wachstum O(g(n)), wenn es eine Konstante c gibt, so dass
f (n) ≤ c · g(n) für alle n ∈ N. In unserem Zusammenhang bedeutet dies, dass der Algorithmus
höchstens cn2 m arithmetische Schritte für eine geeignete Konstante c ausführt.
8
an, als Pivotelement wähle den ersten Eintrag
Vierfache der ersten Zeile von der zweiten:

1 4
0
 0 0
7
2 8 −21
Subtrahiere das Doppelte der ersten

1
0
0
in der ersten Zeile. Subtrahiere das

10
−7
41
Zeile von der dritten:

4
0
10
0
7
−7
0 −21 21
Vertausche die zweite mit der dritten Spalte:


1
0
4 10
0
7
0 −7
0 −21 0 21
Addiere das Dreifache der zweiten Zeile zur dritten:


1 0 4 10
0 7 0 −7
0 0 0 0
Wir lösen das transformierte, linearen Gleichungssystem (beachte die Spaltenvertauschung während des Gauß-Verfahrens)
x1
+ 4x2 = 10
7x3
=−7
0 · x2 = 0
mittels Lemma 1.4. Der Wert von x2 ist frei wählbar und
• x3 = −1, denn 7x3 = −7, sowie
• x1 + 4x2 = 10, denn x1 = 10 − 4x2 .


 10 − 4λ
Die Lösungsmenge ist: Lös(A, b) =  λ 

−1


λ∈R .

Man nennt ein lineares Gleichungssystem Ax = b homogen, falls b = 0, und inhomogen, falls b 6= 0. Die Lösungsmenge eines homogenen linearen Gleichungssystems
Ax = 0 hat eine lineare Struktur: Neben 0 ∈ Lös(A, 0) gilt für x, y ∈ Lös(A, 0) und
λ ∈ R, dass x ± y, λx ∈ Lös(A, 0). Betrachten wir die Struktur von Lös(A, b). Für
jedes x0 ∈ Lös(A, b) gilt
Lös(A, b) = x0 + Lös(A, 0) = {x0 + x | x ∈ Lös(A, 0) } ,
denn wegen A(x0 + x) = Ax0 + Ax für x ∈ Lös(A, 0) und Ax0 = b haben wir folgende
Äquivalenz:
A(x0 + x) = b
⇐⇒
Ax = 0.
2. Gauß-Algorithmus und Matrizen
9
Kennt man Lös(A, 0), den sogenannten Kern von A, und eine spezielle Lösung x0 ∈
Lös(A, b), so kennt man bereits alle Lösungen des imhomogenen linearen Gleichungssystems Ax = b.
Wir wollen den Gauß-Algorithmus mit Hilfe von Matrizen-Operationen formulieren.
Die Summe A + B zweier Matrizen A, B ∈ Mm,n (R) ist die Matrix bestehend aus
der komponentenweisen Addition aij + bij der Einträge von A und B, die skalare
Multiplikation λA mit λ ∈ R ist ebenfalls komponentenweise erkärt:
λA = (λaij ) 1≤i≤m
A + B := (aij + bij ) 1≤i≤m
1≤j≤n
1≤j≤n
Die Multiplikation einer Matrix mit einem Vektor ist (Definition 1.2 auf Seite 4) ein
Spezialfall der Matrizenmultiplikation:
Def inition 1.8 (Multiplikation von Matrizen). Das Produkt AB zweier Matrizen
A ∈ Mk,m (R) und B ∈ Mm,n (R) wird erklärt durch
m

m
P
P
a1ν bν1 · · ·
a1ν bνn 

!
m
ν=1
ν=1

X


..
..
AB =
aiν bνj
=
 ∈ Mk,n (R).
.
.


1≤i≤k
m
m
ν=1
P
P

1≤j≤n
akν bν1 · · ·
akν bνn
ν=1
ν=1
Den Eintrag cij des Produkts C := AB erhält man durch Multiplikation der i-ten
Zeile von A mit der j-ten Spalte von B
cij =
m
X
aiν bνj = ai1 b1j + ai2 b2j + . . . + aim bmj
ν=1
j
↓

a11
 .
 .
 .

i→
 ai1

 ..
 .
ak1
···
···
···

a1m

.. 

.  b11

 .
aim 
 ..

..  b
.  m1
akm
j
↓
···
···
c11
 .

 ..
b1n



.. = i→ ci1

. 

 ..
bmn
 .

b1j
..
.
···
bmj
···
ck1
···
c1j
..
.
···
···
cij
···
..
.
···
ckj
···

c1n
.. 
. 


cin 


.. 
. 
ckn
Im Gegensatz zur Multiplikation reeller Zahlen ist die Multiplikation von Matrizen
ist nicht kommutativ, d.h. es gibt Matrizen A, B mit A · B 6= B · A, und das Produkt
zweier von Null verschiedener Matrizen kann durchaus Null ergeben:
1 0
0 1
0 1
·
=
0 0
0 0
0 0
0 1
1 0
0 0
·
=
.
0 0
0 0
0 0
10
Die n × n-Einheitsmatrix

1 0

0 . . .
In := 
 .. . .
.
.
0 ···

0
.. 
.
 ∈ Mn,n (R)

0
1
···
..
.
..
.
0
entspricht dem Einselement der uns bekannten Zahlenbereiche, d.h. für alle A ∈
Mm,n (R) gilt Im A = A und AIn = A. Geht n aus dem Kontext hervor, sprechen wir
kurz von der Einheitsmatrix. Die Bezeichnung In kommt vom englischen Identity. Im
Deutschen wird die Einheitsmatrix auch mit En bezeichnet. Mit dem sogenannten
Kronecker-Symbol
(
1
δij :=
0
falls i = j
falls i =
6 j
kann man die die Einheitsmatrix beschreiben durch In := (δij )1≤i,j≤n .
Def inition 1.9 (Elementarmatrizen). Zu i, j mit i 6= j und λ ∈ R \ {0} bezeichnen
wir die quadratischen Matrizen
i
↓

a) Vi,j
1
..





i→ 




:=




j→ 




j
↓

.
1
0
0
..
.
0
1
···
0
1
..
0
.
1
0
···
0
1
0
..
.
0
0
1
..
.
1
i
↓






b) Ti (λ) := i→ 




1
..

.
1
λ
1
..
.
1





 ∈ Mn,n (R).













 ∈ Mn,n (R).









11
j
↓

1



c) Ti,j (λ) :=


i→ 
..

.
..
.
..
λ
.
1



 ∈ Mn,n (R).


als Elementarmatrizen.
Für A ∈ Mm,n (R) gilt:
a) Die Multiplikation mit Vi,j von links entspricht der Vertauschung der i-ten
Zeile mit der j-ten Zeile von A.
b) Die Multiplikation mit Ti (λ) von links entspricht der Multiplikation der i-ten
Zeile von A mit dem Skalar λ.
c) Die Multiplikation mit Ti,j (λ) von links entspricht der Addition des λ-fachen
der j-ten Zeile zur i-ten Zeile von A.
Die Multiplikation einer Matrix mit einer Elementarmatrix von links bewirkt eine
Transformation der Zeilen der Matrix, eine Multiplikation von rechts dagegen eine
Transformation der Spalten der Matrix. Insbesondere vertauscht man durch Multiplikation von rechts mit der Matrix Vi,j die Spalten i und j.
Def inition 1.10 (Dreiecksmatrix). Eine quadratische Matrix T ∈ Mn,n (R) heißt
• untere Dreiecksmatrix, falls tij = 0 für i < j und
• obere Dreiecksmatrix, falls tij = 0 für i > j.
Die Menge der unteren Dreiecksmatrizen bezeichnen wir mit UDn (R) ⊆ Mn,n (R),
die Menge der oberen Dreiecksmatrizen mit ODn (R) ⊆ Mn,n (R).
Bei unteren Dreiecksmatrizen sind alle Einträge oberhalb der Hauptdiagonalen
Null, also


t11 0 · · ·
0
 ..
.. 
..
..
 .
.
.
. 



 ..
..
 .
. 0 
tn1 · · · · · · tnn
, bei oberen Dreiecksmatrizen alle unterhalb der Hauptdiagonalen.
Satz 1.11 (Produkt von Dreiecksmatrizen). Das Produkt zweier unterer Dreiecksmatrizen ist eine untere Dreiecksmatrix.
Beweis. Seien A, B ∈ UDn (R) und C := AB ∈ Mn,n (R). Es ist cij = 0 für i < j
nachzuweisen. Da A und B untere Dreiecksmatrizen sind gilt, für i < j:
cij =
n
X
aik bkj =
k=1
unn damit C ∈ UDn (R).
i
X
k=1
aik bkj +
|{z}
=0
j
X
aik bkj +
|{z}
k=i+1 =0
n
X
aik bkj = 0
|{z}
k=j+1 =0
12
Man überlege sich, dass eine analoge Aussage für obere Dreiecksmatrizen gilt.
Weil die Zeilentransformationen Ti,j (λ) im Gauß-Verfahren untere Dreiecksmatrizen sind, folgt aus Satz 1.11:
Korollar 1.12. Sei (A, b) eine erweiterte Matrix derart, dass das Gauß-Verfahren
keine Zeilen- und keine Spaltenvertauschungen vornimmt. Dann liefert es eine untere
Dreiecksmatrix T , so dass T A Treppenform hat.
Bemerkung 1.13. Die Dreiecksmatrizen Ti,j (λ) im Gauß-Verfahren (ohne Zeilenund Spaltenvertauschungen) erfüllen t11 = . . . = tmm = 1. Diese Eigenschaft bleibt
bei der Multiplikation von Matrizen aus UDm (R) erhalten.
Ist A eine quadratische Matrix dergestalt, dass der Gauß-Algorithmus keine Zeilenund Spaltenvertauschungen vornimmt, gilt T A ∈ ODn (R) mit der Transformationsmatrix des Gauß-Verfahrens T ∈ UDn (R).
Def inition 1.14 (Permutationsmatrix). Eine quadratische Matrix P = (pij ) ∈ Mn,n (R)
heißt Permutationsmatrix, wenn
a) pij ∈ {0, 1}
n
P
b)
pij = 1
j=1
und
n
P
pji = 1
für i = 1, . . . , n.
j=1
Eine Permutationsmatrix hat in jeder Zeile und in jeder Spalte genau eine Eins
und sonst nur Nullen als Einträge. Auch für Permutationsmatrizen gilt, dass sie, von
links multipliziert, die Zeilen vertauscht (permutiert), von rechts multipliziert dagegen
die Spalten. Ist dabei pij = 1, dann ist die j-te Zeile (Spalte) von A gleich der i-ten
Zeile (Spalte) von P A (von AP ).
Korollar 1.15. Führt das Gauß-Verfahren auf der erweiterten Matrix (A, b) keine Zeilenvertauschung durch, dann liefert es eine untere Dreiecksmatrix T und eine
Permutationsmatrix P , so dass T AP in Treppenform ist.
In Übungsaufgabe 2.4 wird gezeigt:
Satz 1.16. Sei A ∈ Mn,n (R). Dann gibt es Permutationsmatrizen P1 , P2 ∈ Mn,n (R)
und Dreiecksmatrizen T ∈ UDn (R), B ∈ ODn (R) mit P1 AP2 = T B.
Da P1 , P2 , T, B einfach zu invertieren4 sind, erhält man eine Formel für die inverse
Matrix A−1 . Die Diagonalelemente von T sind 1.
Korollar 1.17 (Matrix-Inversion). Mit Hilfe des Gauß-Algorithmus kann man zu einer quadratischen Matrix A ∈ Mn,n (R) in O(n3 ) arithmetischen Schritten die inverse
Matrix A−1 mit mit A · A−1 = In = A−1 · A bestimmen.
Die Aussage von Korollar 1.17 gilt nicht nur für die reellen Zahlen R, sondern
ebenfalls für beliebige Körper K.
−1
4Eine quadratische Matrix A ∈ M
∈ Mn,n (R)
n,n (R) heißt invertierbar, wenn es eine Matrix A
mit A · A−1 = In = A−1 · A gibt.
Kapitel 2
Körper, Ringe und
Gruppen
Wir beschäftigen uns in diesem Kapitel näher mit verschiedenen algebraischen Strukturen und Abbildungen, welche die algebraische Struktur erhalten, sogenannten Homomorphismen.
1. Körper
Die reellen Zahlen sind ein Beispiel für die algebraische Struktur eines sogeannten
Körpers:
Def inition 2.1 (Körper). Ein Körper ist eine nichtleere Menge K mit zwei Verknüpfungen
+ : K × K → K,
· : K × K → K,
(a, b) 7→ a + b (Addition)
(a, b) 7→ a · b (Multiplikation),
welche die folgenden Axiome erfüllen:
• Gesetze der Addition:
(1) Assoziativität: (x + y) + z = x + (y + z) für alle x, y, z ∈ K.
(2) Kommutativität: x + y = y + x für alle x, y ∈ K(3) Existenz eines Nullelements 0 ∈ K: 0 + x = x = x + 0 für alle x ∈ K.
(4) Existenz additiver inverser Elemente: Zu jedem x ∈ K gibt es ein −x ∈
K mit x + (−x) = 0 = (−x) + x.
• Gesetze der Multiplikation:
(5) Assoziativität: (x · y) · z = x · (y · z) für alle x, y, z ∈ K.
(6) Kommutativität: x · y = y · x für alle x, y ∈ K.
(7) Existenz eines Einselements 1 ∈ K \ {0}: 1 · x = x = x · 1 für alle x 6= 0.
(8) Existenz multiplikativer inverser Elemente: Zu jedem x ∈ K \ {0} gibt
es ein x−1 ∈ K mit x · x−1 = 1 = x−1 · x.
13
14
2. Körper, Ringe und Gruppen
• Distributivgesetze:1
(9) Linksdistributivität: x · (y + z) = x · y + x · z für alle x, y, z ∈ K.
(10) Rechtsdistributivität: (x + y) · z = x · z + y · z für alle x, y, z ∈ K.
Wir schreiben abkürzend xy statt x · y und x − y statt x + (−y), und vereinbaren,
dass die Multiplikation stärker bindet als die Addition, also
xy + z = (xy) + z,
um auf zusätzliche Klammerungen zu verzichten. Jeder Körper hat mindestens zwei
Elemente, denn das Nullelement 0 und das Einselement 1 sind per Definition verschieden. Da zu einer algebraischen Struktur neben einer Menge auch ihre Verknüpfungen
gehören, ist ein Körper genaugenommen ein 3-Tupel (K, +, ·). Wir werden uns aber
meist abkürzend nur auf K beziehen.
Lemma 2.2. In einem Körper K gelten die folgenden Rechenregeln:
a) Nullelement 0 und Einselement 1 sind eindeutig bestimmt.
b) Das additive Inverse −x und das multiplikative Inverse x−1 eines Elements
x ∈ K bzw. x ∈ K \ {0} sind eindeutig bestimmt.
c) Es gilt −(−x) = x und ((x)−1 )−1 = x für x ∈ K bzw. x ∈ K \ {0}.
d) Für x, y, z ∈ K folgt aus x + z = y + z, dass x = y.
e) Für x, y ∈ K und z ∈ K \ {0} folgt aus xz = yz, dass x = y.
f) Ein Produkt xy ist Null, sobald einer der Faktoren x, y ∈ K Null ist. Insbesondere gilt 0 · x = x · 0 = 0.
g) Es gilt Nullteilerfreiheit, d.h. das Produkt xy von x, y ∈ K \ {0} ist ungleich
Null.
h) Für x, y ∈ K \ {0} gilt (xy)−1 = y −1 x−1 .
i) Für x, y ∈ K gilt x · (−y) = (−x) · y = −(xy). Insbesondere ist (−x) · (−y) =
xy.
Beweis. Sei K ein Körper und x, y, z ∈ K.
a) Sei 00 ∈ K ein Nullelement. Da 0 und 00 beides Nullelemente sind, folgt aus
Axiom 3: 00 = 0 + 00 = 0. Sei 10 ∈ K ein Einselement. Weil 1 und 10 beides
Einselemente sind, folgt aus Axiom 7: 10 = 1 · 10 = 1.
b) Sei (−x)0 ein additives Inverses zu x. Es folgt:
(3)
(1)
(4)
(−x)0 = (−x)0 + (x + (−x)) = ((−x)0 + x) +(−x) = −x.
| {z }
|
{z
}
(4)
(3)
=0
=0
(x−1 )0
Sei
ein multiplikatives Inverses zu x ∈ K \ {0}. Dann gilt analog zum
vorherigen Schritt:
(7)
(8)
(5)
(8)
(7)
(x−1 )0 = (x−1 )0 · 1 = (x−1 )0 · (x · x−1 ) = ((x−1 )0 · x) · x−1 = 1 · x−1 = x−1 .
1Aufgrund der Kommutativität der Multiplikation genügt bereits eines der Distributivgesetze.
1. Körper
15
c) Aus (−x) + x = 0 bzw. (x−1 ) · x = 1, folgt dass x das eindeutig bestimmte
Inverse zu −x bzw. x−1 ist.
d) Wegen Axiom (1) und x + z = y + z gilt:
x = x + (z − z) = (x + z) − z = (y + z) − z = y + (z − z) = y.
| {z }
| {z }
=0
=0
e) Wegen Axiom (5) und xz = yz gilt:
x = x · 1 = x(zz −1 ) = (xz)z −1 = (yz)z −1 = y(zz −1 ) = y · 1 = y.
f) Wir zeigen x · 0 = 0. Der Rest der Aussage folgt dann aus Axiom (6). Gemäß
Axiomen (3) und (9) gilt:
x · 0 = x · (0 + 0) = x · 0 + x · 0,
also x · 0 = x · 0 + x · 0. Aus d) folgt 0 = x · 0.
g) Wir zeigen, dass aus xy 6= 0 folgt x = 0 oder y = 0. Angenommen, xy = 0
und x 6= 0. Dann hat x ein multiplikatives Inverses x−1 und:
y = 1 · y = (x−1 x)y = x−1 (xy) = x · 0 = 0.
h) Wir zeigen, dass y −1 x−1 Inverses zu xy ist:
−1
−1
−1
(y −1 x−1 )(xy) = ((y −1 x−1 )x)y = (y −1 x
| {z x})y = (y · 1)y = y y = 1.
=1
i) Aus xy + x(−y) = x(y − y) = x · 0 = 0 folgt −(xy) = x(−y). Analog erhalten
wir aus xy + (−x)y = (x − x)y = 0 · y = 0, dass −(xy) = (−x)y. Weil xy das
additive Inverse zu −(xy) ist, gilt
(−x)(−y) = −((−x)y) = −(−(xy)) = xy.
Dies war zu zeigen.
Wir kennen bereits einige Körper, beispielsweise die reellen Zahlen R, sowie die rationalen Zahlen Q mit der gewohnten Addition und Multiplikation und den Rechenregeln
−1
ad + bc
a c
ac
a c
a
b
+ =
· =
= .
b d
bd
b d
bd
b
a
Die reellen und die rationalen Zahlen sind Beispiele für angeordnete Körper:
Def inition 2.3 (Angeordneter Körper). Ein Körper K heißt angeordnet, wenn es
eine Relation >“ gibt mit:
”
(A1) Für a ∈ K gilt genau eine der drei Beziehungen a > 0, a = 0, −a > 0.
(A2) Aus a > 0 und b > 0 folgt a + b > 0 für a, b ∈ K.
(A3) Aus a > 0 und b > 0 folgt a · b > 0 für a, b ∈ K.
16
Die endlichen Körper Z2 und Z3 . Im Gegensatz zu unseren vorherigen Beispielen
bilden die ganzen Zahlen Z keinen Körper, denn in Z existieren keine Inverse bezüglich
der Multiplikation. Wir können aber einen endlichen Körper, also einen Körper mit
nur endlich vielen Elementen, aus 0 und 1 konstruieren. Dazu setze Z2 := {0, 1} und
definiere Addition und Multiplikation wie folgt:
+ 0 1
0 0 1
1 1 0
· 0 1
0 0 0
1 0 1
Man überzeuge sich, dass alle Körperaxiome erfüllt sind. Geht man alle alternativen
Belegungen der Additions- und der Multiplikationstafel durch, so ergibt sich, dass
keine anders definierte Addition und Multiplikation die Körperaxiome erfüllen, denn
durch die Eigenschaften des Nullelements 0 und des Einselements 1 sind die Werte
bis auf 1 + 1 und 0 · 0 festgelegt.
• Die Summe 1+1 muß 0 sein, denn sonst gäbe es zu 1 kein negatives Element.
• Das Produkt 0 · 0 muß 0 sein, denn sonst wäre f) aus Lemma 2.2 verletzt.
Addition und Multiplikation sind im Körper mit zwei Elementen durch die Körpergesetze eindeutig bestimmt. Da jeder Körper mindestens das Null- und das Einselement
enthalten muß, gibt es (bis auf Benennung) nur einen Körper mit zwei Elementen.
Auf analoge Weise gelingt die Konstruktion des Körpers mit drei Elementen: Wir
setzen Z3 := {0, 1, 2} und erklären Addition und Multiplikation wie folgt:
+
0
1
2
0
0
1
2
1
1
2
0
2
2
0
1
·
0
1
2
0
0
0
0
1
0
1
2
2
0
2
1
Auch hier überzeuge sich der Leser, dass alle Körpergesetze erfüllt sind.
Bemerkung 2.4. Endliche Körper heißen Galoisfelder 2 (im Englischen heißt ein
Körper field“). Sie sind bis auf Benennung der Elemente (Isomorphie) eindeutig
”
bestimmt. Man spricht daher von dem endlichen Körper Fq mit q Elementen. Für
Primzahlen p kann man Fp aus Z ableiten. Wir beschäftigen uns allgemein mit endlichen Körpern in Kapitel 15.
Der Körper der komplexen Zahlen. Als weiteres und wichtiges Beispiel eines
Körpers lernen wir die komplexen Zahlen kennen, mit denen bereits Cardano3 im
16. Jahrhundert, wenn auch unverstanden, rechnete. Zu Konstruktion der komplexen
Zahlen C erweitern wir die reellen Zahlen und betrachten Paare von reellen Zahlen:
C := R2 = {(a, b) | a, b ∈ R } .
2Zu Ehren von Evariste Galois, 1811–1832, einem französischen Mathematiker, der, zu seiner
Zeit unverstanden, wichtige Beiträge zur Gruppentheorie und zur Auflösungstheorie algebraischer
Gleichungen lieferte. Er starb mit 21 Jahren bei einem Duell.
3Geronimo Cardano, 1501–1576. Cardano war ein italienischer Mathematiker, Arzt und Naturforscher. Er veröffentlichte u.a. das ihm von Tartaglia mitgeteilte Verfahren zur Lösung kubischer
Gleichungen und ein Buch über das Würfelspiel.
1. Körper
17
Man definiert Addition und Multiplikation wie folgt:
(a, b) + (a0 , b0 ) := (a + a0 , b + b0 )
(a, b) · (a0 , b0 ) := (aa0 − bb0 , ab0 + a0 b).
(3)
Durch Nachrechnen ergibt sich, dass C mit obiger Addition und Multiplikation einen
Körper bildet. Dabei ist (0, 0) das Nullelement und (1, 0) das Einselement. Zu (a, b)
b
a
ist −(a, b) := (−a, −b) Inverses bezüglich der Addition und ( a2 +b
2 , − a2 +b2 ) Inverses
bezüglich der Multiplikation.
Einbettung der reellen Zahlen. Wir interpretieren die reellen Zahlen R ∼
= R × {0} ⊂
C als Teilmenge der komplexen Zahlen. Offenbar ist {(a, 0) | a ∈ R } abgeschlossen
gegenüber Addition und Multiplikation der komplexen Zahlen. Unsere Interpretation
ist gerechtfertigt, denn man erhält in den Gleichungen (3) für b = b0 = 0 die gewohnte
Addition und Multiplikation der reellen Zahlen.
Darstellung mit der imaginären Einheit. Um zu einem besseren Verständnis im Umgang mit den komplexen Zahlen zu kommen, betrachten wir eine alternative Darstellung. Wir zeichnen ein Element der komplexen Zahlen aus und nennen i := (0, 1) die
imaginäre Einheit.4 Offenbar verfügt diese über die Eigenschaft i2 = (0, 1)(0, 1) =
(−1, 0) = −1, also i2 = −1.
Mit dem Einselement (1, 0) und der imaginären Einheit (0, 1) verfügen wir über
eine Basis von C, mit deren Hilfe sich jede komplexe Zahl als Linearkombination von
1 und i darstellen läßt:
(a, b) = a(1, 0) + b(0, 1) = a + bi = a + ib.
In dieser Darstellung ergeben sich, unter Berücksichtigung von i2 = −1, die Regeln
für die Addition und die Multiplikation komplexer Zahlen auf natürliche Weise aus
den Rechenregeln der reellen Zahlen:
a + ib + a0 + ib0 = a + a0 + i(b + b0 )
(a + ib)(a0 + ib0 ) = aa0 + iab0 + iba0 + i2 bb0 = aa0 − bb0 + i(ab0 + a0 b).
Wir stellen die Inversen bezüglich Addition und Multiplikation auf diese Weise dar:
−(a + ib) = −a − ib
(a + ib)−1 =
a − ib
.
a2 + b2
a
b
Diese entsprechen den anfangs angegebenen Inversen (−a, −b) und ( a2 +b
2 , − a2 +b2 ),
denn:
a + ib + (−a − ib) = 0 + i · 0 = 0
a − ib
a2 − i2 b2
a2 + b2
(a + ib) 2
=
=
= 1.
a + b2
a2 + b2
a2 + b2
4Auf Leonhard Euler, 1707–1783, einen bekannten Mathematiker, geht die Einführung dieses
Symbols zurück. In den zahlreichen Veröffentlichungen Eulers finden sich neben einer Fülle von Abhandlungen auch viele ausgezeichnete Gesamtdarstellungen mathematischer Gebiete. Er verzeichnete
bedeutende Erfolge in den meisten Gebieten der Mathematik und ihrer Anwendungen im weiteren
Sinne. Die Symbole f (x), π und e gehen auf ihn zurück.
18
Abbildung 1. Gauß’sche Zahlenebene
Imaginärteil 6
b
7
` i
ϕ
0
1
a
-
Realteil
Die Gauß’sche Zahlenebene 5 liefert eine geometrische Interpretation der komplexen Zahlen. Wir fassen die komplexen Zahlen als Punkte der reellen Ebene auf und
nennen a den Realteil und b den Imaginärteil einer komplexen Zahl a + ib. Anhand
dieser Auffassung wird deutlich, dass man komplexe Zahlen auf eine dritte Art und
Weise darstellen kann, nämlich mit Polarkoordinaten: Wir interpretieren einen Punkt
als Ortsvektor und beschreiben ihn durch seine euklidische6 Länge und den Winkel
zwischen ihm und der positiven reellen Achse (siehe Abbildung 1). Jede komplexe Zahl
(außer der Null) wird eindeutig durch ihre Länge ` und ihren Winkel ϕ beschrieben.
Wir erhalten eine bijektive Abbildung
R2 → R≥0 × [0, 2π),
(a, b) 7→ (`, ϕ),
wobei R≥0 := {x ∈ R | x ≥ 0 } die Menge der nicht-negativen, reellen Zahlen ist.
Wie sieht die Darstellung von
Die Länge der
√ a+ib ∈ C in in Polarkoordinaten aus?
a
2
2
komplexen Zahl a + ib ist ` = a + b , für den Winkel gilt cos ϕ = ` bzw. sin ϕ = b` :
(a, b) = a + ib = `(cos ϕ + i sin ϕ).
Die Multiplikation zweier komplexer Zahlen in Polarkoordinaten gestaltet sich einfach:
`(cos ϕ + i sin ϕ) · `0 (cos ϕ0 + i sin ϕ0 ) = ``0 (cos(ϕ + ϕ0 ) + i sin(ϕ + ϕ0 )).
5Carl Friedrich Gauß, 1777–1855, siehe Fußnote auf Seite 4
6Euklid, ca. 365–300 v.Chr., war einer der großen Mathematiker und Philosophen der Antike.
Seine Elemente“ sind eines der bekanntesten mathematischen Werke überhaupt und waren 2000
”
Jahre lang Grundlage der Mathematikausbildung. Über ihn selbst ist wenig bekannt, doch wird
folgende Anekdote von ihm überliefert: Als ein Schüler ihn fragte, welchen Nutzen er davon habe,
die geometrischen Lehrsätze zu lernen, rief Euklid einen seiner Sklaven und beauftragte ihn, dem
Studenten eine kleine Geldmünze zu schenken, da dieser armselige Mensch einen Gewinn aus seinen
”
Studien ziehen müsse“.
2. Ringe und Schiefkörper
19
Zur Multiplikation zweier komplexe Zahlen (in Polarkoordinaten), multipliziere die
Längen und addiere die Winkel, denn gemäß Additionstheoremen für Sinus und Cosinus gilt:
cos(ϕ + ϕ0 ) = cos ϕ cos ϕ0 − sin ϕ sin ϕ0
sin(ϕ + ϕ0 ) = sin ϕ cos ϕ0 + sin ϕ0 cos ϕ.
Unterkörper. Interpretiert man die Standard-Zahlenbereiche als Erweiterungen voneinander, also N ⊂ Z ⊂ Q ⊂ R ⊂ C, ist zu erkennen, dass diese zunehmend abgeschlossen gegenüber verschiedenen Operationen sind:
• N Abschluß gegenüber Addition und Multiplikation
• Z Abschluß von N gegenüber Subtraktion.
• Q Abschluß von Z gegenüber Division.
• R Abschluß von Q gegenüber Häufungspunkten und Konvergenz
• C Abschluß von R gegenüber algebraischen Gleichungen.7
Die rationalen Zahlen Q sind ein Unterkörper der reellen Zahlen R, die man ihrerseits
als Unterkörper der komplexen Zahlen C auffaßt:8
Def inition 2.5 (Unterkörper). Eine nichtleere Teilmenge K0 ⊆ K eines Körpers K
heißt Unterkörper, wenn K0 mit den Verknüpfungen von K selbst ein Körper ist.
Assoziativität, Kommutativtät und die Distributivgesetze übertragen sich vom Körper
K auf die Teilmenge K0 .
Satz 2.6. Sei K ein Körper. Ein Teilmenge K0 ⊆ K mit den gleichne Verküpfungen
ist genau dann ein Unterkörper von K, wenn
a) 0, 1 ∈ K0 ,
b) für x, y ∈ K0 ist x − y ∈ K0 und
c) für x, y ∈ K0 \ {0} ist xy −1 ∈ K0 .
Wir folgern später diese Charakterisierung mittels Korollar 2.14 aus Satz 2.17.
2. Ringe und Schiefkörper
Ein Ring unterscheidet sich im wesentlichen dadurch von einem Körper, dass er nicht
notwendigerweise über multiplikative Inverse verfügt. Je nachdem, welche Axiome
außerdem nicht gelten, unterscheiden wir verschiedene Arten von Ringen:
Def inition 2.7 (Ring). Ein Ring R erfüllt alle Körperaxiome bis auf die Axiome 6
(Kommutativität der Multiplikation), 7 (Existenz der Eins) und 8 (Existenz inverser
Elemente) gelten.
7Jedes Gleichung Pn a xi = 0 mit n ≥ 1 und a , . . . , a ∈ C hat eine Lösung x ∈ C. Dies
0
n
i=0 i
ist der sogenannte Fundamentalsatz der Algebra von C.F. Gauß, auf den wir in Kapitel 4 über
Polynome genauer eingehen (Fakt 4.23).
8Hingegen ist zum Beispiel Z = {0, 1} kein Unterkörper der reellen Zahlen R (obwohl 0, 1 ∈ R),
2
denn die Verknüpfungen sind unterschiedlich: In Z2 gilt 1 +2 1 = 0, während über den reellen Zahlen
1 + 1 = 2 ist.
20
Existiert das Einselement, sprechen wir von einem Ring mit Eins, ist die Multiplikation kommutativ, von einem kommutativen Ring. Ein nullteilerfreier, kommutativer Ring, der außer der 0 ein weiteres Element enthält, heißt Integritätsring (auch
Integritätsbereich).
Zu einem Ring gehören neben einer Menge auch seine Verknüpfungen, ein Ring
ist eigentlich ein 3-Tupel (R, +, ·). Wie bei Körpern beziehen wir uns aber meist
abkürzend nur auf R. Bei Ringen fallen die beiden Distributivgesetze (Axiome 9 und
10) im allgemeinen nicht zusammen. Ein Ring heißt nullteilerfrei (siehe Lemma 2.2),
wenn er keine Nullteiler besitzt. Da in Ringen keine multiplikativen Inversen existieren
müssen, folgt im allgemeinen aus xz = yz nicht, dass y = z ist (d.h. man darf nicht
kürzen“). Unterringe definiert man analog zu Unterkörpern (Definition 2.5).
”
Beispiel 2.8. Wir haben bereits einige Ringe kennengelernt:
• Die Menge Z der ganzen Zahlen bildet einen kommutativen Ring mit Eins.
Dieser Ring ist sogar ein Integritätsbereich.
• Die Menge Mn,n (R) der quadratischen Matrizen bildet einen Ring mit Eins.
Dabei ist die Nullmatrix das Nullelement und die Einheitsmatrix das Einselement. Dieser Ring ist nicht nullteilerfrei.
Wenn wir in der Definition eines Körpers auf die Kommutativität der Multiplikation verzichten, erhält man einen sogenannten Schiefkörper (Divisionsring):
Def inition 2.9 (Schiefkörper). Ein Schiefkörper S erfüllt alle Körperaxiome bis auf
Axiom 6 (Kommutativität der Multiplikation).
Im Gegensatz zu Körpern ist es bei Schiefkörpern zwingend erforderlich (da die
Multiplikation nicht kommutativ sein muß), explizit 1x = x1 = 1 zu fordern. Dann
stimmt Linksinverses und Rechtsinverses zu einem Element überein:
−1
−1
−1
−1
−1
x−1
L = xL (xxR ) = (xL x) xR = xR
| {z } | {z }
=1
=1
Im Gegensatz ein einem Körper sind für Schiefkörper sind beide Distributivitätsgesetze notwendig.
Quaternionen-Schiefkörper. Als Beispiel eines Schiefkörpers betrachten wir den
Schiefkörper der Quaternionen H, den Hamilton9 entdeckte. Die Idee ist, die komplexen Zahlen zu erweitern, indem man statt Paaren 4-Tupel reeller Zahlen betrachtet.
Wir setzen
H := R4 = {(a, b, c, d) | a, b, c, d ∈ R}
und führen dann in Analogie zur imaginären Einheit in C drei imaginäre Einheiten
i, j, k ein, für die gilt
i2 = j 2 = k 2 = −1,
ij = k,
jk = i,
ki = j.
9William Rowan Hamilton, 1805–1865. Ein irischer Mathematiker und Physiker mit Arbeiten
auf den Gebieten der Mechanik, der Optik und der Algebra.
3. Gruppen
21
Mit diesen imaginären Einheiten stellt man ein Element (a, b, c, d) ∈ H als a +
ib + jc + kd dar. Addition und Multiplikation zweier Quaternionen h = (a, b, c, d),
h0 = (a0 , b0 , c0 , d0 ) ∈ H ergeben sich unter Berücksichtigung der Eigenschaften der imaginären Einheiten aus der gewohnten Addition und Multiplikation der reellen Zahlen:
h + h0 = a + a0 + i(b + b0 ) + j(c + c0 ) + k(d + d0 )
h · h0 = aa0 − bb0 − cc0 − dd0 + i(ab0 + ba0 + cd0 − dc0 )
+ j(ac0 − bd0 + ca0 + db0 ) + k(ad0 + bc0 − cb0 + da0 ).
Mit c = d = 0 sind dies die komplexen Zahlen (einschließlich der gewohnten Addition
und Multiplikation in C). Man kann die komplexen Zahlen
C∼
= C × {0} × {0} ⊂ H
⊂
als Teilmenge der Quaternionen betrachten, es gilt R ⊂
∼ C ∼ H.
3. Gruppen
Im Gegensatz zu Körpern und Ringen verfügen Gruppen nur über eine Verknüpfung.
Def inition 2.10 (Gruppe). Eine Gruppe ist eine Menge G mit einer Verknüpfung
· : G × G → G und den Gesetzen:
a) Assoziativität: (xy)z = x(yx) für alle x, y, z ∈ G.
b) Existenz des neutralen Elementes 1: 1 · x = x · 1 = x für alle x ∈ G.
c) Existenz inversen Elemente x−1 ∈ G: x−1 x = 1 = xx−1 für alle x ∈ G.
Eine Gruppe G heißt kommutative Gruppe, falls die Verknüpfung kommutativ ist,
d.h. für x, y ∈ G gilt x · y = y · x.
Das neutrale Element 1 wird oft auch mit e (für Einheit) bezeichnet. Eine kommutative Gruppe nennt man abelsch 10. Wir haben in der Gruppen-Definition 2.10
die multiplikative Schreibweise verwendet. Bei einer additiven Schreibweise wird die
Verknüpfung mit +“, das neutrale Element mit 0 und die inversen Elemente mit −x
”
bezeichnet. Man verwendet allgemein für Gruppen die multiplikative Schreibweise
(G, ·) und für kommutative Gruppen die additive Schreibweise (G, +).
Def inition 2.11 (Monoid, Halbgruppe). Ein Monoid M erfüllt alle Gruppenaximone
bis auf die Existenz inverser Elemente. Eine Halbgruppe H ist eine nichtleere Menge
H mit einer assoziativen Verknüpfung.
Ein Monoid ist eine Halbgruppe mit einem neutralen Element, eine Gruppe ist eine
Halbgruppe mit inversen Elementen.
Beispiel 2.12. Beispiele für Halbgruppen, Monoide und Gruppen sind:
10Niels Hendrik Abel, 1802–1829, ein bedeutender norwegischer Mathematiker. Er lieferte
wichtige Beiträge zur Funktionentheorie (insbesondere zu elliptischen Funktionen und Integralen)
und zur Auflösungstheorie algebraischer Gleichungen. Zu seinen Ergebnissen zählen beispielsweise
das Abelsche Theorem, eine Verallgemeinerung des Additionstheorems elliptischer Integrale, sowie
die Unauflösbarkeit der allgemeinen Gleichungen fünften oder höheren Grades in Radikalen.
22
• Sei X eine nicht leere Menge. Die Menge aller Abbildungen
Abb(X, X) := {f | f : X → X }
ist mit der Komposition (Hintereinanderausführung)
(f ◦ g)(x) := f (g(x)),
als Verknüpfung ein Monoid: Für alle f, g, h ∈ Abb(X, X) und x ∈ X gilt
(h ◦ (f ◦ g))(x) = h(f (g(x))) = (h ◦ f )(g(x)) = ((h ◦ f ) ◦ g)(x)
Die Einheit ist die Identitätsfunktion id(x) = x.
• Die Menge Mn,m (K) der n × n-Matrizen über einem Körper K ist mit der
Multiplikation und der Einheitsmatrix als neutralem Element eine Halbgruppe. Die Assoziativität der Matrix-Multiplikation überträgt sich aus K (siehe
Übungsaufgabe 2.1).
• Die Menge N0 = {0, 1, 2, . . .} der natürlichen Zahlen ist mit der Addition
und 0 als neutralem Element ein Monoid.
• Die Menge
GLn (K) := A ∈ Mn,n (K) A−1 existiert
der invertierbaren n × n-Matrizen über einem Körper K ist mit der Multiplikation eine Gruppe (die allgemeine, lineare Gruppe). Zu C := AB mit
A, B ∈ GLn (K) ist das Inverse C −1 = B −1 A−1 .
• Sei R ein Ring mit Eins. Dann ist die Menge der invertierbaren Elemente
R∗ := r ∈ R r−1 existiert
mit der Multiplikation eine Gruppe, die sogenannte Einheitengruppe. Es ist
R∗ ⊆ R \ {0} und im Fall eines Körpers K gilt die Gleichheit K∗ = K \ {0}.
Analog zu Lemma 2.2 weist man folgende Rechenregeln für Gruppen nach:
Lemma 2.13. In einer Gruppe G gelten die folgenden Rechenregeln:
a) Das Einselement 1 ist eindeutig bestimmt.
b) Das Inverse x−1 eines Elements x ∈ G ist eindeutig bestimmt.
c) Für x, y ∈ G gilt (xy)−1 = y −1 x−1 .
d) Für x, y, z ∈ G folgt aus xz = yz, dass x = y.
e) Für x, y, z ∈ G folgt aus zx = zy, dass x = y.
Mit Gruppen können wir Körper und Ringe kürzer als bisher beschreiben.
Korollar 2.14 (Körper). Eine nichtleere Menge K zusammen mit zwei inneren Verknüpfungen (Addition und Multiplikation) ist genau dann ein Körper, falls:
a) K ist zusammen mit der Addition eine kommutative Gruppe.
b) K∗ ist zusammen mit der Multiplikation eine kommutative Gruppe.
c) Es gilt Distributivität.
4. Homomorphismen
23
Korollar 2.15 (Ring). Eine nichtleere Menge R mit zwei inneren, binären Verknüpfungen Addition und Multiplikation. ist genau dann ein Ring, falls:
a) R ist zusammen mit der Addition eine kommutative Gruppe.
b) R \ {0} ist zusammen mit der Multiplikation eine Halbgruppe.
c) Es gilt Links- und Rechtsdistributivität.
R ist genau dann ein (kommutativer) Ring mit Eins, wenn R \ {0} mit der Multiplikation einen (kommutativen) Monoid darstellt.
Untergruppe definiert man analog zu Unterkörpern (Definition 2.5).
Def inition 2.16 (Untergruppe). Eine nichtleere Teilmenge U einer Gruppe G heißt
Untergruppe, wenn U mit der Verknüpfung aus G selbst eine Gruppe ist.
Eine einfache Charakterisierung einer Untergruppe liefert folgender Satz:
Satz 2.17. Sei G eine Gruppe. Eine nichtleere Teilmenge U ⊆ G ist genau dann eine
Untergruppe von G, falls aus x, y ∈ U folgt xy −1 ∈ U .
Beweis. Offenbar erfüllt jede Untergruppe U ⊆ G das Kriterium. Angenommen, eine
nichtleere Teilmenge U ⊆ G erfüllt die Bedingung. Die Assoziativität überträgt sich
von G auf U , nachzuweisen bleibt, dass die Teilmenge U abgeschlossen gegenüber der
Verknüpfung ist und Inverse in U existieren. Wegen U 6= ∅ existiert ein u ∈ U , aus
dem zweiten Kriterium folgt mit x := u und y := u:
1 = uu−1 ∈ U.
Die Teilmenge U enthält das Einselement 1. Zu u ∈ U ist auch u−1 ∈ U , denn aus der
zweiten Eigenschaften und 1 ∈ U folgt u−1 = 1 · u−1 ∈ U , und U ist eine Untergruppe
von G.
Wir beweisen Satz 2.6 mit Hilfe der Charakterisierung aus Korollar 2.14. Nach Satz
2.17 gilt für K0 :
• (K0 , +) ist eine Untergruppe von (K, +) und
• ((K0 )∗ , ·) eine Untergruppe von (K∗ , ·).
Da sich die Distributivität überträgt, ist K0 ein Körper. Statt Eigenschaft a) genügt
die Bedingung (K0 )∗ 6= ∅.
4. Homomorphismen
Ein Homomorphismus ist eine Abbildung, bei der kein Unterschied besteht, ob man
zuerst die auf der Struktur definierte Verknüpfung und danach den Homomorphismus
ausführt oder umgekehrt. Homomorphismen sind rechentreue“ oder strukturerhal”
”
tende“ Abbildungen, d.h. die Rechenregeln einer Struktur bleiben bei der Abbildung
erhalten.
Def inition 2.18 (Gruppenhomomorphismus). Seien (G, · ) und (G0 , ◦) Gruppen. Eine Abbildung f : G → G0 heißt Gruppenhomomorphismus, falls für x, y ∈ G gilt
f (x · y) = f (x) ◦ f (y).
(4)
24
Man beachte, dass es sich bei x · y um die Verknüpfung von G handelt, bei f (x) ◦
f (y) dagegen um die Verknüpfung von G0 . Für Homomorphismen von Halbgruppen
und Monoiden fordert man ebenfalls Eigenschaft (4).
√
Beispiel 2.19. Für die Gruppe (R≥0 , ·) ist die Funktion f (x) := x ein Homomorphismus:
√ √
√
f (x · y) = x · y = x · y = f (x) · f (y).
Die Funktion exp : (R, +) → (R, ·), x 7→ ex ist ein Gruppenhomomorphismus:
exp(x + y) = ex+y = ex · ey = exp(x) · exp(y).
Sei f : G → G0 ein Gruppenhomomorphismus und x ∈ G. Es gilt f (1G ) = 1G0 , denn
f (1) = f (1 · 1) = f (1) · f (1),
und aus 1 = f (1) = f (x · x−1 ) = f (x) · f (x−1 ) erhalten wir f (x−1 ) = f (x)−1 . Das
Bild von f ist bild f := {f (x) | x ∈ G } ⊆ G0 und
ker f := {x ∈ G | f (x) = 1 } = f −1 (1) ⊆ G
heißt der Kern von f .11 Man kann leicht nachrechnen, dass ker f eine Untergruppe
von G und bild f Untergruppe von G0 ist.
Def inition 2.20 (Ring- und Körperhomomorphismus). Seien (R, +, ·) und (R0 , ⊕, ◦)
Ringe. Eine Abbildung f : R → R0 heißt Ringhomomorphismus, falls für x, y ∈ R gilt
a) Additivität: f (x + y) = f (x) ⊕ f (y) und
b) Homogenität: f (x · y) = f (x) ◦ f (y).
Falls R, R0 Körper sind, spricht man von einem Körper-Homomorphismus.
Bei einem Homomorphismus f : A → A0 übertragen alle Operationen die algebraischen Struktur A. Man spricht davon, dass die Operationen der Struktur sich
übertragen oder mit f verträglich sind.
Bemerkung 2.21 (Homomorphieprinzip). Seien A und A0 algebraische Strukturen
und f : A → A0 ein surjektiver Homomorphismus (Epimorphismus). Dann gilt für
jede der beteiligten Verknüpfungen, dass sich Assoziativität, Kommutativität, die
Existenz des neutralen Elements sowie die Existenz der inversen Elemente von A auf
A0 übertragen. Man nennt dies das Homomorphieprinzip.
Sei f : R → R0 ein Ringhomomorphismus. Bild und Kern werden analog erklärt.
Man nennt bild(f ) := {f (x) | x ∈ R } das Bild von f und
ker f := {x ∈ R | f (x) = 0 } = f −1 (0)
den Kern von f . Es gilt f (0) = 0 und f (−x) = −f (x), denn f : (R, +) → (R0 , +) ist
ein Gruppenhomorphismus.
Def inition 2.22 (Spezielle Homomorphismen). Ein Homomorphismus f heißt
11Beachte, dass f −1 (y) nicht die Umkehrabbildung bezeichnet (diese existiert im allgemeinen
nicht), sondern die Menge aller x ∈ G mit f (x) = y.
4. Homomorphismen
25
• Monomorphismus, falls f injektiv ist.
• Epimorphismus, falls f surjektiv ist.
• Isomorphismus, falls f bijektiv ist.
• Endomorphismus, falls f eine Abbildung einer Menge in sich ist.
• Automorphismus, falls f ein bijektiver Endomorphismus ist.
Die Umkehrabbildung eines Isomorphismus ist ebenfalls ein Isomorphismus. Zwei
Strukturen A, A0 heißen isomorph, A ∼
= A0 , falls ein Isomorphismus f : A → A0
existiert.
Beispiel 2.23. Für G := 2k k ∈ Z gilt (Z, +) ∼
= (G, ·), wobei der Isomorphismus
k
durch f : Z → G mit k 7→ 2 gegeben ist.
Wir betrachten als weiteres Beispiel für spezielle Homomorphismen einen Körperautomorphismus der komplexen Zahlen C.
Beispiel 2.24. Die Abbildung f : C → C mit (a + ib) 7→ (a − ib) ordnet jeder
komplexen Zahl z = a + ib die dazugehörige konjugiert komplexe Zahl z := a − ib zu.
Dies entspricht in der Gauß’schen Zahlenebene einer Spiegelung an der reellen Achse.
Da f eine Abbildung von C nach C ist, bleibt zu zeigen, dass f bijektiv ist und die
Homomorphie-Eigenschaften besitzt. Die Bijektivität folgt aus
f (f (a + ib)) = f (a − ib) = a + ib,
d.h. es ist f −1 = f . Wir rechnen die Homomorphie-Eigenschaften nach:
f (a + ib) + f (a0 + ib0 ) = a − ib + a0 − ib0
= (a + a0 ) − i(b + b0 )
= f (a + a0 + i(b + b0 ))
= f (a + ib + a0 + ib0 ).
Für die Multiplikation gilt:
f (a + ib)f (a0 + ib0 ) = (a − ib)(a0 − ib0 )
= (aa0 − bb0 ) − i(ab0 + a0 b)
= f (aa0 − bb0 + i(ab0 + a0 b))
= f ((a + ib)(a0 + ib0 )).
Dies ergibt folgende Rechenregeln für die Konjugation komplexer Zahlen z1 , z2 ∈ C:
z1 + z 2 = z1 + z2
z1 · z 2 = z1 · z 2
z 1 = z1 .
Betrachten wir die Konjugation in der Darstellung mit Polarkoordinaten. Offenbar
haben z und z die gleiche Länge. Für die Winkel gilt ϕ = 2π − ϕ = −ϕ mod 2π. Das
Produkt zweier konjugiert komplexer Zahlen z1 · z2 hat den Winkel −ϕ1 + (−ϕ2 ) mod
2π, das konjugiert komplexe Produkt zweier komplexer Zahlen z1 · z2 hat den Winkel
26
−(ϕ1 + ϕ2 ) mod 2π. Dabei folgt die Gleichheit der Winkel und Längen auch aus den
Homomorphie-Eigenschaften der komplexen Konjugation: z1 · z2 = z1 · z2 .
5. Vom Ring Z abgeleitete Körper
Wir haben bereits in Abschnitt 1 dieses Kapitels die endlichen Körper Z2 und Z3
kennengelernt. Nun konstruieren wir aus den ganzen Zahlen Z endliche Strukturen
Zp , die sich für prime12 p als Körper erweisen.
Sei n ∈ N \ {0}. Wir erklären Addition und Multiplikation auf dem ganzzahligen
Intervall [0, n − 1] = {0, 1, . . . , n − 1} ⊆ N gemäß
a +n b := (a + b) − qn
a ·n b := (ab) − q 0 n
mit q, q 0 ∈ Z, so dass (a + b) − qn ∈ [0, n − 1] und (ab) − q 0 n ∈ [0, n − 1]. Das eindeutig
bestimmte q bzw. q 0 ergibt sich aus der Division mit Rest [W96]:
Satz 2.25 (Division mit Rest). Zu a ∈ Z, b ∈ N \ {0} gibt es eindeutig bestimmte
Zahlen q, r ∈ Z mit a = qb + r und 0 ≤ r < b.
Da r eindeutig bestimmt ist, nennen wir r den Rest bei der Division von a durch
b und bezeichnen ihn mit a mod b (man spricht a modulo b“). Also:
”
a +n b := (a + b) mod n
a ·n b := (ab) mod n
Def inition 2.26 (Zn ). Sei Zn := ([0, n−1], +n , ·n ) die algebaische Struktur bestehend
aus der Menge [0, n − 1] und den beiden Verknüpfungen +n“ und ·n“.
”
”
Für Zn schreibt man auch Z/nZ oder Z/(n) und spricht von einem Faktorring.
Wir wollen zeigen, dass Zn ein kommutativer Ring mit Einselement ist. Nach dem
Homomorphie-Prinzip (Bemerkung 2.21 auf Seite 24) genügt der Nachweis, dass die
Abbildung rn : Z → Zn mit
rn (a) := a mod n,
d.h. a wird abgebildet auf den Teilerrest bei Division durch n, ein Homomorphismus
ist. Es gilt r−1 (a) = a+nZ = {a + nz | z ∈ Z }. Wir identifizieren das Element a ∈ Zn
mit der Menge a + nZ:
Zn = [0, n − 1]
↔
{r + nZ | r = 0, 1, . . . , n − 1 } .
Zu einem festen r ∈ [0, n − 1] heißt die Menge r + nZ die Restklasse modulo n und
r nennt man einen Repräsentanten dieser Restklasse. Die Restklasse ist unabhängig
von der Wahl des Repräsentanten:
r + nZ = r0 + nZ
⇐⇒
r − r0 ∈ nZ.
(5)
12Eine Zahl p ∈ N\{1} heißt prim, wenn p nicht als Produkt ab mit a, b ∈ [1, p−1] darstellbar ist.
Dabei wird die Zahl 1 als Spezialfall per Definition ausgeschlossen. Teilt eine Primzahl ein Produkt
xy, so teilt p einen der beiden Faktoren x oder y.
5. Vom Ring Z abgeleitete Körper
27
Die nachzuweisenden Homomorphie-Eigenschaften
rn (a + b) = rn (a) +n rn (b)
rn (a · b) = rn (a) ·n rn (b)
mit a, b ∈ Z sind äquivalent zu:13
(a + b) + nZ = (a + nZ) + (b + nZ)
(ab) + nZ = (a + nZ) · (b + nZ)
(6)
Für a, b ∈ [0, n − 1] gilt offenbar (6). Sei a0 := a + sn und b0 := b + tn mit s, t ∈ Z und
a, b ∈ [0, n − 1]. Es genügt der Nachweis von
(a0 + b0 ) − (a + b) ∈ nZ
(a0 b0 ) − (ab) ∈ nZ,
(7)
d.h. rn (a + b) = rn (a0 + b0 ) und rn (ab) = rn (a0 b0 ), d.h. beide Repräsentanten stehen
jeweils für die gleiche Restklasse. Gleichungen (7) folgen aus:
(a0 + b0 ) − (a + b) = (a + b + (s + t)n) − (a + b) = (s + t)n ∈ nZ
(a0 b0 ) − (ab) = (ab + atn + bsn + tsn2 ) − (ab) = (at + bs + tsn)n ∈ nZ
Wir haben gezeigt:
Satz 2.27. Für n ∈ N \ {0} ist Zn ist ein kommutativer Ring mit Eins.
Das Nullelement ist die Restklasse 0+nZ, das Einelement 1+nZ. Insbesondere ist
(Zn , +) nach Satz 2.27 eine kommutative Gruppe. Im allgemeinen handelt es sich bei
Zn jedoch um keinen Körper, denn beispielsweise existiert in Z4 kein multiplikatives
Inverses zu 2.
Satz 2.28. Zn ist genau dann ein Körper, wenn n eine Primzahl ist.
Beweis. Wir wissen bereits aus Satz 2.27, dass Zn ein kommutativer Ring mit Eins
ist und sich von einem Körper nur durch Axiom 8 (Existenz inverser Elemente) unterscheiden kann.
Ist n keine Primzahl, so gibt es a, b ∈ [1, n − 1] mit n = ab. Wegen (ab) mod n = 0
sind a mod n und b mod n Nullteiler in Zn , so dass Zn kein Körper ist.
Sei p eine Primzahl. Wir zeigen, dass es zu jedem a ∈ [1, p − 1] ein Inverses gibt
und Zp daher ein Körper ist. Betrachte die Produkte a ·p 0, a ·p 1, . . . , a ·p (p − 1). Diese
sind paarweise verschieden. Denn angenommen, es gäbe i, j mit 0 ≤ i 6= j < p und
a ·p i = a ·p j. Da a 7→ (a mod p) ein Homomorphismus ist, folgt a(i − j) ∈ pZ und p
teilt a(i − j). Da p eine Primzahl ist, teilt p mindestens einen der Faktoren. Wegen
0 6= a < p, muß p die Differenz i − j teilen — Widerspruch, denn 0 < |i − j| < p.
Da die p obigen Produkte paarweise verschieden sind und |Zp | = p ist, läßt sich jedes
Element aus Zp darstellen als Produkt von a und einem anderen Element b ∈ Zp .
Wegen 1 = a ·p b ist b Inverses zu a.
13Gleichung (6) bedeutet, dass + “ und · “ über Repräsentanten und die Addition bzw. Muln
n
”
”
tiplikation auf Z erklärt werden. Zu zeigen bleibt, dass die Verknüpfungen wohldefiniert sind, d.h. unabhängig von der Wahl der Repräsentanten.
28
Der Beweis ist nicht konstruktiv, liefert also keinen Anhaltspunkt für die Berechnung
des Inversen von in Zp . Man kann die Inversen effizient mit dem (erweiterten) Euklidische Algorithmus, der in den Vorlesungen über Algebra“ und diskrete Mathematik“
”
”
vorgestellt wird, bestimmen.
Beispiel 2.29. Betrachten wir ein weiteres Beispiel eines endlichen Körpers. Den
Körper Z7 mit sieben Elementen leiten wir aus Z ab:
+
0
1
2
3
4
5
6
0
0
1
2
3
4
5
6
1
1
2
3
4
5
6
0
2
2
3
4
5
6
0
1
3
3
4
5
6
0
1
2
4
4
5
6
0
1
2
3
5
5
6
0
1
2
3
4
6
6
0
1
2
3
4
5
·
0
1
2
3
4
5
6
0
0
0
0
0
0
0
0
1
0
1
2
3
4
5
6
2
0
2
4
6
1
3
5
3
0
3
6
2
5
1
4
4
0
4
1
5
2
6
3
5
0
5
3
1
6
4
2
6
0
6
5
4
3
2
1
Wir nennen zwei ganze Zahlen a, b ∈ Z kongruent modulo n, falls die Reste bei
Division von a und b durch n gleich sind, also a − b ∈ nZ ist:
a≡b
(mod n).
Die Kongruenz modulo n ist ein Beispiel für eine Äquivalenzrelation auf Z.
Def inition 2.30 (Äquivalenzrelation, Äquivalenzklasse). Sei X eine Menge. Eine
Teilmenge R ⊆ X × X ist eine Äquivalenzrelation auf X, wenn gilt:
(A1) Reflexivität: (x, x) ∈ R für alle x ∈ X.
(A2) Symmetrie: Aus (x, y) ∈ R folgt (y, x) ∈ R.
(A3) Transitivität: Aus (x, y), (y, z) ∈ R folgt (x, z) ∈ R.
Anstelle von (x, y) ∈ R schreibt man oft xRy. Zu x ∈ X heißt die Teilmenge
[x]R := {y ∈ Y | (x, y) ∈ R }
die Äquivalenzklasse von x bezüglich R.
Die Äquivalenzklassen bezüglich der Kongruenz modulo n sind die n Restklassen.
Man rechnet mit Hilfe von (5) leicht nach:
Satz 2.31. Sei n ∈ N \ {0}. Die Kongruenz modulo n ist eine Äquivalenzrelation auf
den gaznzen Zahlen Z.
Kapitel 3
Vektorräume
Zentraler Gegenstand der linearen Algebra sind Vektorräume, die wir in diesem Abschnitt kennenenlernen. Wir definieren den Begriff und führen Untervektorräume,
Basen und Dimension ein.
1. Vektorraum und Untervektorraum
Wir beginnen mit der Definition des Vektorraums (auch linearer Raum genannt):
Def inition 3.1 (Vektorraum). Sei K ein Körper. Eine nichtleere Menge V mit zwei
Verknüpfungen
+: V × V → V ,
· : K×V →V ,
(v, w) 7→ v + w (Addition)
(λ, v) 7→ λ · v
(Skalare Multiplikation)
heißt K-Vektorraum, wenn für alle λ, µ ∈ K und v, w ∈ V gilt:
a) (V, +) ist eine kommutative Gruppe.
b) Assozitativität: λ · (µ · v) = (λ · µ) · v
c) Distributivität: (λ + µ) · v = λ · v + µ · v,
λ · (v + w) = λ · v + λ · w
d) 1 · v = v.
Ein Vektorraum ist eine kommutative Gruppe mit einer äußeren Verknüpfung zu
einem Körper. Statt K-Vektorraum sagt man auch Vektorraum über K. Die Elemente
v ∈ V heißen Vektoren, die Elemente λ ∈ K nennt man Skalare. Wir schreiben 0
für den Nullvektor bzw. einfach 0, wenn Verwechselungen mit dem Nullelement des
Körpers K ausgeschlossen werden können.
Beispiel 3.2. Betrachte einige Beispiele zu Vektorräumen.
29
30
3. Vektorräume
• Sei K ein Körper. Die Menge Kn bildet mit den komponentenweise definierten
Operationen


  
    
λx1
x1 + y1
x1
x1
y1

  

 ..   ..  
..
λ ·  ...  =  ... 

 . + . =
.
xn
λxn
xn + yn
xn
yn
einen K-Vektorraum. Da die Operationen komponentenweise definiert sind,
übertragen sich die Rechengesetze von K und die Vektorraumaxiome gelten.
• Sei K ein Körper. Dann ist die Menge der m × n Matrizen Mm,n (K) über
diesem Körper zusammen mit Addition und skalaren Multiplikation ein KVektorraum.
• Die komplexen Zahlen C lassen sich als R-Vektorraum interpretieren. Dabei
ist die Addition die in Kapitel 1 angegebene und die Multiplikation mit einem
Skalar λ ist die Multiplikation einer reellen Zahl mit einer komplexen Zahl:
λ(a + ib) = (λ + i0)(a + ib) = λa + iλb.
• Sei ein X nichtleere Menge und K ein Körper. Dann ist die Menge der
Abbildungen von X nach K
Abb(X, K) := {f | f : X → K }
mit der Addition (f + g)(x) 7→ f (x) + g(x) und der skalaren Multiplikation
(λf )(x) 7→ λf (x) ein K-Vektorraum.
Wir folgern aus den Axiomen des Vektorraums:
Lemma 3.3. In einem K-Vektorraum V gelten folgende Rechenregeln:
a) Für v ∈ V und λ ∈ K gilt 0 · v = λ · 0 = 0.
b) Aus λ · v = 0 mit λ ∈ K und v ∈ V folgt λ = 0 oder v = 0.
c) Für v ∈ V gilt (−1) · v = −v.
Beweis. Seien v ∈ V und λ ∈ K. Aus der Distributivität folgt:
0 + 0 · v = 0 · v = (0 + 0) · v = 0 · v + 0 · v
0 + λ · 0 = λ · 0 = λ · (0 + 0) = λ · 0 + λ · 0.
Da (V, +) eine Gruppe ist, folgt 0 · v = λ · 0 = 0. Sei λ · v = 0 und λ 6= 0. Nach
Definition des Vektorraums ist 1 · v = v. Wir erhalten:
v = 1 · v = (λ−1 λ) · v = λ−1 · (λ · v) = λ−1 · 0.
Aus Eigenschaft a) folgt v = 0. Aufgrund des Distributivgesetzes gilt:
v + (−1) · v = 1 · v + (−1) · v = (1 − 1) · v = 0 · v.
Aus Eigenschaft a) folgt 0 · v = 0, so dass (−1) · v das additive Inverse zu v ist.
Analog zu Untergruppen, -ringen und -körpern definiert man Untervektorräume
und aufbauend auf diesen weitere Teilstrukturen von Vektorräumen.
1. Vektorraum und Untervektorraum
31
Def inition 3.4 (Untervektorraum). Sei V ein K-Vektorraum. Eine nichtleere Teilmenge U ⊆ V heißt Untervektorraum, wenn sie ein K-Vektorraum ist.
Betrachten wir Beispiele von Untervektorräumen:
• Im R2 bilden die Punkte Ga = (x, y)T ∈ R2 y = ax einer Geraden durch
den Ursprung, für ein festes a ∈ R, einen Untervektorraum des R2 .
• Sei K ein Körper. Die Menge UDn (K) der unteren n × n-Dreiecksmatrizen
ist ein Untervektorraum des K-Vektorraums der n × n Matrizen Mm,n (K).
Lemma 3.5. Eine nichtleere Teilmenge U eines K-Vektorraums V ist genau dann
ein Untervektorraum, wenn sie abgeschlossen gegenüber Addition und skalarer Multiplikation ist.
Beweis. Falls U ein Untervektorraum von V darstellt, ist er abgeschlossen gegenüber
Addition und skalarer Multiplikation.
Umgekehrt, angenommen U ⊆ H ist abgeschlossen gegenüber Addition und skalarer Multiplikation. Seien v, w ∈ U und λ ∈ K. Assoziativität, Distributivität und
1 · v = v übertragen sich von V auf U . Bleibt zu zeigen, dass U mit der Addition eine
kommutative Gruppe bildet. Mit u ∈ U ist −1 · u = −u ∈ U , so dass zu u, v ∈ U
auch u − v ∈ U . Aus dem Untergruppenkriterium, Satz 2.17 auf Seite 23, folgt die
Behauptung.
Im R2 ist eine Gerade Ga,b , die nicht durch den Ursprung geht,
Ga,b = (x, y)T ∈ R2 y = ax + b
mit a, b ∈ R und b 6= 0, ein verschobene Untervektorraum“:
” Ga,b = (0, b)T + (x, y)T ∈ R2 y = ax = (0, b)T + Ga .
Wir führen für verschobene Unterräume“ den Begriff des affinen Unterräums ein:
”
Def inition 3.6 (Affiner Unterraum, Richtungsraum, Parallel). Eine Teilmenge A
eines K-Vektorraums V heißt affiner Unterraum, wenn sie leer ist oder es ein a0 ∈ A
und einen Untervektorraum U ⊆ V mit A = a0 + U gibt. Wir nennen
R(A) := U = {x − a0 | x ∈ A } = {x − y | x, y ∈ A }
Richtungsraum von A. Affine Unterräume A und A0 heißen parallel, A k A0 , falls
R(A) ⊆ R(A0 ) oder R(A0 ) ⊆ R(A).
Beachte, dass der Richtungsraum R(A) unabhängig von a0 ist. Wie wir später
sehen werden, sind Geraden die eindimensionalen affinen Unterräume des Kn und die
Hyperebenen die affinen Unterräume des Kn der Dimension n − 1.
Def inition 3.7 (Gerade, Hyperebene). Eine Teilmenge G ⊆ Kn heißt Gerade, falls
es a, a0 ∈ Kn gibt mit
G = a0 + Ka = {a0 + λa | λ ∈ K } .
Eine Teilmenge H ⊆ Kn heißt Hyperebene, falls es a ∈ Kn , a 6= 0, und b ∈ K gibt mit
H = x ∈ Kn aT x = b = Lös(aT , b).
32
3. Vektorräume
Wir können die Lösungsmengen linearer Gleichungssysteme mit der Terminologie
der Vektorräume beschreiben. Sei A ∈ Mm,n (K) und b ∈ Km . Dann ist Lös(A, b) ⊆
Kn ein affiner Unterraum mit dem Richtungsraum Lös(A, 0). Umgekehrt gilt, dass
jeder affine Unterraum Lösungsmenge eines inhomogenen linearen Gleichungssystem
ist. Wir werden den Beweis zu einem späteren Zeitpunkt geben.
2. Lineare Unabhängigkeit, Basen und
Dimension
Schließt man eine Menge von Vektoren aus einem Vektorraum linear ab, ergibt dies
den von diesen Vektoren erzeugten Unterraum. Als erstes führen wir dazu den Begriff
der Linearkombination ein:
Def inition 3.8 (Linearkombination). Sei V ein K-Vektorraum, v1 , . . . , vn ∈ V und
λ1 , . . . , λn ∈ K. Dann heißt der Vektor
n
X
v=
λi vi = λ1 v1 + . . . + λn vn
i=1
eine Linearkombination der Vektoren v1 , . . . , vn .
Beachte, dass eine Linearkombination nur aus endlich vielen Vektoren besteht.
Linearkombinationen, die durch Permutationen der Summanden auseinander hervorgehen, sind gleich. Bildet man zu gegebenen Vektoren alle möglichen Linearkombinationen, heißt dies lineare Hülle:
Def inition 3.9 (Lineare Hülle). Sei V ein K-Vektorraum. Die lineare Hülle (linearer
Abschluß, Erzeugnis oder Spann) von X = {x1 , x2 , . . .} ⊆ V ist
( n
)
X
span(X) :=
λi xi n ∈ N, λi ∈ K, xi ∈ X .
i=1
Für endliche X sei λi = 0 für i > |X|. Andere Schreibweisen für span(X) sind L(X)
und hXi.
Die lineare Hülle einer unendlichen Menge von Vektoren besteht aus den Linearkombinationen aller endlichen Teilmengen dieser Menge. Die lineare Hülle einer
endlichen Menge von Vektoren X = {x1 , . . . , xn } besteht aus allen Linearkombinationen dieser Vektoren:
( n
)
n
X
X
span(X) :=
λi xi λi ∈ K =
Kxi .
i=1
i=1
Die lineare Hülle von Vektoren ist nach Lemma 3.5 ein Untervektorraum, denn
mit u, v ∈ span(X) und λ ∈ K gilt
n
n
n
X
X
X
u+v =
λi xi +
µi xi =
(λi + µi )xi ∈ span(X)
i=1
n
X
λv = λ
i=1
i=1
n
X
λi vi =
i=1
i=1
(λλi )vi ∈ span(X).
2. Lineare Unabhängigkeit, Basen und Dimension
33
Für X = ∅ erhalten wir in Definition 3.9 die leere Summe und als Erzeugnis der leeren
Menge den kleinstmöglichen Untervektorraum: span(∅) = {0}.
Def inition 3.10 (Erzeugendensystem). Sei V ein K-Vektorraum und X ⊆ V . Ein
Erzeugendsystem von span(X) ist eine Teilmenge Y ⊆ X mit span(Y ) = span(X).
Die Definition legt nahe, dass nicht alle Vektoren einer Menge für ihr Erzeugnis
wesentlich sind. Tatsächlich verändert sich die lineare Hülle einer Menge von Vektoren
X nicht, fügt man eine Linearkombination von Vektoren aus X hinzu. Läßt sich der
hinzugefügte Vektor nicht als Linearkombination von Vektoren aus X darstellen, so
verändert seine Hinzunahme die lineare Hülle. Wir führen für diesen Sachverhalt den
Begriff der linearen Unabhängigkeit ein:
Def inition 3.11 (Linear unabhängig). Sei V ein K-Vektorraum. Eine Teilmenge
X = {x1 , . . . , xn } ⊆ V heißt linear unabhängig, falls für λ1 , . . . , λn ∈ K gilt
n
X
λi xi = 0
=⇒
λ1 = . . . = λn = 0.
i=1
X heißt linear abhängig, falls X nicht linear unabhängig ist. Eine unendliche Menge von Vektoren heißt linear unabhängig, wenn jede endliche Teilmenge linear unabhängig ist, und heißt linear abhängig, wenn sie eine endliche linear abhängige Teilmenge enthält. Die leere Menge ist linear unabhängig.
Eine Menge von Vektoren ist linear unabhängig, wenn der Nullvektor nur die
triviale Darstellung hat. Aus der Definition folgt direkt:
Satz 3.12. Sei V ein K-Vektorraum und X = {x1 , . . . , xn } ⊆ V . Dann sind folgende
Aussagen äquivalent:
a) X ist linear unabhängig.
b) Die Darstellung der Null als Linearkombination der xi ist eindeutig.
Pn
c) Für (λ1 , . . . , λn ) ∈ Kn \ {0} ist
i=1 λi xi 6= 0.
Beispiel 3.13. Es gilt:
• Im Kn sind die Vektoren (1, 1, 1), (1, 1, 0), (0, 0, 1) linear abhängig, denn
1 · (1, 1, 1) − 1 · (1, 1, 0) − 1 · (0, 0, 1) = 0
i
• Wir nennen ei := (0, . . . , 0, 1, 0, . . . , 0) ∈ Kn den i-ten kanonischen Einheitsvektor. Die Einheitsvektoren sind linear unabhängig, da jede Komponente einer Linearkombination nur von genau einem der Einheitsvektoren bestimmt
wird; sollen alle Komponenten der Linearkombination 0 sein, müssen daher
auch alle Koeffizienten 0 sein.
• Der Nullvektor ist stets linear abhängig (denn 1 · 0 = 0).
• Seien a = (a1 , a2 ), b = (b1 , b2 ) ∈ R2 . Dann gilt
– a, b sind genau dann linear abhängig, wenn es ein λ ∈ R gibt mit a = λb
oder b = λa.
– a, b sind genau dann linear unabhängig, wenn 4(a, b) = a1 b2 −a2 b1 6= 0.
34
3. Vektorräume
• Die Richtungsräume von Geraden sind genau dann linear abhängig, wenn
die Geraden parallel sind.
Wir zeichnen bestimmte Erzeugendensysteme aus und weisen anschließend nach,
dass diese minimal sind:
Def inition 3.14 (Basis). Sei V ein K-Vektorraum. Eine Teilmenge B ⊂ V heißt
Basis von V , wenn sie ein linear unabhängiges Erzeugendensystem von V ist.
Die Einheitsvektoren bilden offenbar eine Basis des Kn . Wir bezeichnen diese
Basis als die Standardbasis des Kn . Offensichtlich ist die Darstellung eines Vektors
als Linearkombination der Standardbasis eindeutig.
Satz 3.15. Sei V ein K-Vektorraum. B ⊂ V ist genau dann eine Basis von V , wenn
für alle B 0 ( B gilt span(B 0 ) 6= V .
Beweis. Sei V ein K-Vektorraum und B ⊂ V . Wir zeigen beide Richtungen:
Wir zeigen zuerst, falls B eine Basis ist, dann ist B auch ein minimales Erzeugendensystem. Wir beweisen dazu, dass ein Erzeugendensystem, welches nicht minimal ist, auch keine Basis bildet (Beweis durch Kontraposition). Sei B 0 ein Erzeugendensystem mit B 0 ( B und span(B 0 ) = span(B). Dann existiert ein b ∈ B \ B 0
mit P
b ∈ span(B 0 ). Wir stellen b als Linearkombination der Elemente von B 0 dar:
b = ni=1 λi b0i mit b01 , . . . , b0n ∈ B 0 . Damit erhält man eine nicht-triviale Darstellung
der Null
0=b−
n
X
λi b0i
i=1
Also sind b01 , . . . , b0n , b linear abhängig, und B ist keine Basis.
Wir zeigen, falls B ein minimales Erzeugendensystem ist, dann ist B eine Basis. Wir führen dazu einen Beweis durch Kontraposition und beweisen, dass B nicht
minimal ist, wenn B keine Basis ist. Sei B = {b1 , . . . , bn } ⊆ V ein linear abhängiges
ErP
zeugendensystem. Dann gibt es eine nichttriviale Darstellung der Null ni=1 λi bi = 0
mit (λ1 , . . . , λn ) ∈ Kn \ {0}. Wir nehmen o.B.d.A. an,1 dass λ1 6= 0 (sonst benenne
die bi entsprechend um). Dann ist
b1 =
n
X
λi
bi ∈ span(b2 , . . . , bn )
λ1
i=2
B0
und
= {b2 , . . . , bn } bildet ein Erzeugendensystem.2 Wegen B 0 = B \{b1 } ist B nicht
minimal.
Korollar 3.16. Jeder Vektorraum hat eine Basis.
1Ohne Beschränkung der Allgemeinheit: Diese Annahme dient nur der Vereinfachung der folgen-
den Darstellung und kann stets erfüllt werden (z.B. durch Umbennung der Indizes).
2Die Division ist möglich, da der Vektorraum über einem Körper definiert ist.
35
Für endlich erzeugte Vektorräume folgt Korollar 3.16 unmittelbar aus Satz 3.15. Für
unendlich erzeugte Vektorräume benötigt man zusätzlich das Lemma von Zorn: In
der Menge der linear unabhängigen Teilmengen gibt es ein maximales Element.
Satz 3.17. Sei V ein K-Vektorraum, I eine Indexmenge und B = {bi | i ∈ I } ⊂ V
eine Basis von V . Dann hat jedes v ∈ V genau eine endliche Darstellung
X
v=
λ i bi
mit λi ∈ K.
i∈I
Da zu einer gegebenen, geordneten3 Basis B jeder Vektor v eine eindeutige Darstellung als Linearkombination der Basisvektoren hat, sind die Koeffizienten λi dieser
Darstellung eindeutig festgelegt. Man nennt λ := (λi | i ∈ I) den Koordinatenvektor
von v bezüglich der Basis B und schreibt:
X
v = Bλ =
λ i bi .
i∈I
Beweis. Wir führen den Beweis zu zu Satz 3.17 durch Widerspruch. Sei V ein KVektorraum und B = {b1 , . . . , bn , . . .} ⊂ V eine Basis von V . Angenommen, es gäbe
zwei unterschiedliche Darstellungen eines Vektors v ∈ V
n
X
i=1
λ i bi =
n
X
λ0i bi
i=1
Pn
0
Dann ist
mit (λ1 , . . . , λn ) 6=
i=1 (λi − λi )bi = 0 eine nicht-triviale
Darstellung der Null und B keine Basis — Widerspruch zur Annahme.
(λ01 , . . . , λ0n ).
In Aufgabe 5.2 zeigen wir, dass Vektorraum-Isomorphismen Basen auf Basen abbilden:
Satz 3.18. Seien V1 , V2 K-Vektorräume und ψ : V1 → V2 ein Isomorphismus. Dann
gilt:
a) Genau dann sind ψ(v1 ), . . . , ψ(vm ) ∈ V2 linear unabhängig, wenn v1 , . . . , vn ∈
V1 linear unabhängig sind.
b) Genau dann bilden ψ(b1 ), . . . , ψ(bn ) eine Basis von V2 , wenn b1 , . . . , bn eine
Basis von V1 darstellen.
Die bisherigen Überlegungen gelten sowohl für endlich erzeugte als auch für unendlich erzeugte Vektorräume. Im weiteren beschränken wir uns auf endlich erzeugte
Vektorräume. Für diese formulieren wir das folgende Lemma:
Lemma 3.19. Sei V ein K-Vektorraum mit Basis B = {b1 , . . . , bn }.Dann ist V ∼
= Kn .
P
Beweis. Da jedes v ∈ V eine eindeutige Darstellung v = ni=1 λi bi mit λ1 , . . . , λn ∈
K hat, ist die Abbildung ψ : Kn → V mit f (λ) := Bλ bijektiv. Weil ψ ein Homomorphismus von Vektorräumen ist, folgt die Behauptung.
3D.h. die Reihenfolge der Vektoren in der Basis ist fixiert.
36
3. Vektorräume
Unser Ziel ist es zu zeigen, dass alle Basen von V dieselbe Mächtigkeit haben.
Wir werden für diese Zahl den Begriff der Dimension des Vektorraums in Definition
3.23 einführen.
Satz 3.20. Je n linear unabhängige Vektoren des Kn bilden eine Basis des Kn .
Beweis. Seien a1 , . . . , an ∈ Kn linear unabhängige Vektoren. Es ist zu zeigen, dass
diese Vektoren ein Erzeugendensystem des Kn sind, also span(a1 , . . . , an ) = Kn . Da
span(a1 , . . . , an ) ⊆ Kn trivialerweise gilt, bleibt Kn ⊆ span(a1 , . . . , an ) nachzuweisen.
Dies gilt, wenn die Matrix mit den Spalten a1 , . . . , an
A = a1 · · · an ∈ Mn,n (K)
invertierbar ist. Denn wenn es ein multiplikatives Inverses A−1 ∈ Mn,n (K) zu A gibt,
ist x = A−1 b für jedes b ∈ Kn eine Lösung des linearen Gleichungssystems Ax = b
und damit läßt sich jeder Vektor b ∈ Kn als Linearkombination der Spalten a1 , . . . , an
von A (mit Koeffizienten x1 , . . . , xn ) darstellen.
Wir zeigen die Invertierbarkeit von A. Nach Übungsaufgabe 2.4 gibt es Permutationsmatrizen P1 , P2 ∈ Mn,n (K), so dass das Gauß-Verfahren auf P1 AP2 ohne
Zeilen- und Spaltenvertauschungen auskommt. Nach Satz 1.16 auf Seite 12 gibt es
T = (ti,j ) ∈ UDn mit t11 = · · · = tnn = 1, B ∈ ODn , so dass
P1 AP2 = T B.
Es genügt zu zeigen, dass es zu B eine inverse Matrix B −1 gibt, denn dann hat
A = P1−1 T BP2−1 die Inverse A−1 = P2 B −1 T −1 P1 .
Sei O.B.d.A. P1 = P2 = In . Wir zeigen durch Widerspruch, dass für B = (bij )
gilt
b11 b22 · · · bnn 6= 0,
so dass nach Übungsaufgabe 4.2 ein Inverses B −1 existiert. Angenommen, es gäbe ein
i mit bii = 0. Wähle das maximale i mit bii = 0:
i

∗

0

.
 T
 ..
b1

.
 .. 
.
B =  .  = i
.

bTn
 ...

.
.
.
0
∗
..
.
..
.
···
···
..
.
∗
..
.
···
···
..
···
···
.
0
..
.
···
..
.
bi+1,i+1
..
.
···
..
.
..
.
0
∗
..
.
..
.
..
.
..
.















∗ 
bn,n
Dann gilt
bTi
=
n
X
j=i+1
λj bTj
mit λi+1 , . . . , λn ∈ K,
(8)
37
denn mit

bi+1,i+1 ∗

..
 0
.
B0 = 
 ..
.
..
 .
0
···
und
b0 Ti
···
..
.
..
.
0

∗
.. 
. 


∗ 
bn,n
= (bi,i+1 , . . . , bi,n ) ist
T
T
b0 i = x0 B 0
lösbar durch x0 T = b0 Ti B −1 . Dabei existiert B −1 wegen bi+1,i+1 · · · bn,n 6= 0.
Andererseits sind bT1 , . . . , bTn linear unabhängig, denn wegen A = T B gilt T −1 aTi =
bTi . Da aT 7→ T aT Homomorphismus von Vektorräumen ist und die Umkehrabbildung
aT 7→ T aT ebenfalls, ist aT 7→ T −1 aT Isomorphismus von Vektorräumen. Damit folgt
aus der linearen Unabhängigkeit von aT1 , . . . , aTn , dass b1 , . . . , bn linear unabhängig sind
im Widerspruch zu (8). Also ist b11 · · · bnn 6= 0 und B und A sind invertierbar.
Lemma 3.21. Es gilt Kn ∼
= Km genau dann, wenn n = m.
∼ Km . Umgekehrt zeigen wir, dass Kn ∼
Beweis. Aus n = m folgt unmittelbar Kn =
=
m
m
n
∼
K impliziert n = m. Angenommen, es sei K = K für m < n. Dann gäbe es
einen Vektorraum-Isomorphismus ψ : Kn → Km und die Bilder {ψ(e1 ), . . . , ψ(en )}
der Standardbasis e1 , . . . , en des Kn wären gemäß Satz 3.18 linear unabhängig. Nach
Satz 3.20 ist andererseits ψ(e1 ), . . . , ψ(em ) Basis des Km . Widerspruch, da alle Basen
eines Vektorraums die gleiche Länge haben.
Lemma 3.22. Sei V ein K-Vektorraum. Dann sind folgende Aussagen äquivalent:
a) V ∼
= Kn .
b) Jede Basis von V hat die Mächtigkeit n.
c) Die Maximalzahl linear unabhängiger Vektoren in V ist n.
Beweis. Die Äquivalenz a) ⇐⇒ b) folgt aus den Lemmata 3.19 und 3.21.
Wir zeigen die Äquivalenz b) ⇐⇒ c). Seien {b1 , . . . , bm } linear unabhängige
Vektoren, so dass m maximal ist. Dann gilt span({b1 , . . . , bm }) = V , denn jeder
Vektor v ∈ V \ span({b1 , . . . , bm }) ist linear unabhängig von {b1 , . . . , bm }. Somit ist
b1 , . . . , bm eine Basis von V . Es folgt m = n, wobei n durch die Äquivalenz von a)
und b) eindeutig erklärt ist.
Alle Basen eines endlich erzeugten Vektorraums haben die gleiche Mächtigkeit.
Wir nennen diese Zahl die Dimension des Vektorraums. Da die Dimension endlich erzeugter Vektorräume eine natürliche Zahl ist, nennt man solche Vektorräume endlich
dimensional.
Def inition 3.23 (Dimension). Sei V ein K-Vektorraum mit V ∼
= Kn . Dann heißt
dim V := n die Dimension von V .
Der Begriff der linearen Unabhängigkeit liefert ein Kriterium für die Invertierbarkeit von Matrizen:
38
3. Vektorräume
Satz 3.24 (Invertierbarkeitskriterium für Matrizen). Für quadratische Matrizen A ∈
Mn,n (K) sind folgende Aussagen äquivalent:
a) A ∈ GLn (K), d.h. A ist invertierbar.
b) AT ∈ GLn (K), d.h. AT ist invertierbar.
c) Die Zeilen (Spalten) von A sind linear unabhängig.
Beweis. Betrachten wir die Äquivalenz a) ⇐⇒ b). Sei A invertierbar. Dann gibt
es ein A−1 ∈ Mn,n (K) mit AA−1 = In . Es gilt (AA−1 )T = InT = In und somit
(A−1 )T AT = In . Also (AT )−1 = (A−1 )T . Die Rückrichtung folgt mit (AT )T = A und
der gleichen Argumentation.
Wir weisen die Äquivalenz a) ⇐⇒ c) nach. Im Beweis zu Satz 3.20 wurde gezeigt,
dass A invertierbar ist, wenn die Zeilen von A linear unabhängig sind. Für reguläre
A hat das homogene lineare Gleichungssystem Ax = 0 nur die triviale Lösung x = 0,
denn die Abbildung ψ : x 7→ Ax ist invertierbar ψ −1 : y 7→ A−1 y. Andererseits gilt:
aT1 , . . . , aTn sind linear abhängig ⇐⇒ Ax = 0 für ein x ∈ Kn \ {0}.
Also folgt, dass aT1 , . . . , aTn linear unabhängig sind.
Linear unabhängige Vektoren können zu einer Basis ergänzt werden. Wir beginnen
mit der Existenz einer solchen Ergänzung:
Satz 3.25 (Basisergänzungssatz). Sei V ein K-Vektorraum mit n := dim V und
U ⊆ V ein Untervektorraum von V mit m := dim U . Dann kann man jede Basis
{b1 , . . . , bm } von U zu einer Basis {b1 , . . . , bm , . . . , bn } von V erweitern.
Beweis. Wir führen den Beweis durch vollständige Induktion nach k := n − m:
• Die Induktionsverankerung erfolgt für k = 0, indem wir zeigen, dass jede
Basis von U auch Basis von V ist, d.h. U = V . Dies gilt nach Satz 3.20 für
V = Kn und damit wegen V ∼
= Kn für jedes V .
• Der Induktionsschritt erfolgt von k − 1 nach k. Wir wählen bm+1 ∈ V \ U .
Dann sind {b1 , . . . , bm+1 } linear unabhängig. Sei U 0 = span(b1 , . . . , bm+1 ).
Die Induktionsannahme gilt für U 0 und V wegen dim V − dim U 0 = k − 1.
Also gibt es {bm+2 , . . . , bn } so dass {b1 , . . . , bn } Basis von V ist.
Dies war zu zeigen.
Aus dem Beweis des Basisergänzungssatzes folgt:
Korollar 3.26 (Austauschsatz von Steinitz). Sei BV Basis von V . Dann kann man
im Basisergänzungssatz 3.25 die Vektoren bm+1 , . . . , bn in BV wählen.
Beweis. Es gibt ein bm+1 ∈ BV so dass {b1 , . . . , bm , bm+1 } linear unabhängig ist.
Damit kann bm+1 im Induktionsschritt in BV gewählt werden.
In Anlehnung an den Satz über die Mächtigkeit der Vereinigung zweier endlicher
Mengen |X ∪ Y | = |X| + |Y | − |X ∩ Y | formulieren wir einen Satz über die Dimension
der Summe U + V := {u + v | u ∈ U, v ∈ V } zweier Untervektorräume U, V :
39
Satz 3.27 (Dimensionssatz). Sei W ein K-Vektorraum und U, V ⊆ W Untervektorräume von W . Dann gilt
dim(U + V ) = dim U + dim V − dim(U ∩ V ).
Beweis. Wir führen einen direkten Beweis. Sei B eine Basis von U ∩ V . Nach Satz
3.25 gibt es Basen B ∪ B 0 von U sowie B ∪ B 00 von V . Wir zeigen, dass B ∪ B 0 ∪ B 00
eine Basis von U + V ist. Wegen span(B ∪ B 0 ) = U und span(B ∪ B 00 ) = V gilt
U + V = span(B ∪ B 0 ∪ B 00 ).
Sei
X
λ i bi +
bi ∈B
X
λ0i b0i +
b0i ∈B0
X
λ00i b00i = 0.
=−
X
00
b00
i ∈B
Dann ist
U3
X
λ i bi +
X
λ0i b0i
λ00i b00i ∈ V
P 00 00
und
λi bi ∈ U ∩ V . Andererseits ist B ∪ B00 linear unabhängig und B eine Basis
von U ∩ V . Aufgrund der Eindeutigkeit der Darstellung sind somit alle λ00i = 0. Aus
Symmetriegründen sind alle λ0i = 0. Weil B eine Basis ist, sind alle λi = 0, und der
Nullvektor hat nur die triviale Darstellung. Damit ist B ∪ B 0 ∪ B 00 linear unabhängig.
Weil B, B 0 , B 00 paarweise disjunkt sind gilt:
|B ∪ B 0 ∪ B 00 | = |B ∪ B 0 | + |B ∪ B 00 | −
|B|
dim(U + V ) = dim U + dim V
− dim(U ∩ V ).
Dies war zu zeigen.
Kapitel 4
Polynome
In diesem Abschnitt lernen wir den Vektorraum und Ring der Polynome kennen. Wir
betrachten Polynome dabei als formale, algebraische Objekte.
1. Vektorraum und Ring der Polynome
Sei K ein Körper und X ∈
/ K ein Symbol, das wir Unbestimmte nennen. Für i ∈ N
i
bezeichne X die i-te Potenz von X, also
X i := XX
. . . X} .
| {z
i Faktoren
Zusätzlich sei X 0 := 1. Das Symbol X verhält sich wie ein Körperelement, d.h. zum
Beispiel ist die Multiplikation von X i mit einem Körperelement λ ∈ K kommutativ,
also X i ·λ = λ·X i . Wir suchen nicht, wie bei einem linearen Gleichungssystem Ax = b,
eine Lösung x, sondern betrachten X als formales Objekt. Um diesen Unterschied
hervorzuheben, verwenden andere Autoren als Unbestimmte statt X alternativ t oder
τ.
Def inition 4.1 (Polynom). Sei K ein Körper und X ∈
/ K ein Symbol. Ein Polynom
p(X) über K ist eine endliche (formale) Potenzreihe der Form
2
n
p(X) := p0 + p1 X + p2 X + · · · + pn X =
n
X
pi X i
i=0
mit Koeffizienten p0 , p1 , . . . , pn ∈ K. Der Vektor
koeffvekn (p) := (p0 , p1 , . . . , pn ) ∈ Kn+1
heißt der Koeffizientenvektor des Polynoms p(X). Als Nullpolynom bezeichnet man
das Polynom, dessen Koeffizienten alle Null sind.
P
Meist schreibt man kurz p statt p(X) und läßt bei der Darstellung ni=0 pi X i
diejenigen Monome pi X i weg, deren Koeffizienten pi gleich Null sind. Für das Nullpolynom schreiben wir einfach 0.
41
42
4. Polynome
Beispiel 4.2. Wir betrachten einige Beispiele von Polynomen über R:
u = 9 − 2X 2
koeffvek2 (u) = (9, 0, −2)
2
v = 1 + 2X + 4X + 16X
4
koeffvek5 (v) = (1, 2, 4, 0, 16, 0)
w=X
koeffvek1 (w) = (0, 1)
Pn
Def inition 4.3 (Grad eines Polynoms). Sei p(X) = i=0 pi X i ein Polynom ungleich
dem Nullpolynom. Der Grad deg p des Polynoms p ist gleich dem maximalen Index k
mit pk 6= 0:
deg p = max {i ∈ N0 | pi 6= 0 } .
Für das Nullpolynom definieren wir deg 0 := −∞. Das Nullpolynom und Polynome
mit Grad 0 werden als konstante Polynome bezeichnet.
Manche Autoren setzen deg 0 := 0, allerdings muß dann in der Gradformel, die
wir später kennenlernen, der Fall der Nullpolynome gesondert betrachtet werden. Die
Rechenregeln für −∞ sind einprägsam, interpretiert man −∞ als kleiner als jede
”
Zahl“, so dass für alle z ∈ R gilt
−∞ + z = −∞
z + (−∞) = −∞
−∞ + (−∞) = −∞.
und −∞ < z. Einige Beispiele sollen die Definition des Grads von Polynomen verdeutlichen:
Beispiel 4.4. Für die Polynome u, v, w über R gilt:
u = X + 7X 2 + 0 · X 5
deg u = 2
v = 1 + 2X + X 3 + 3X 4
deg v = 4
w=X
deg w = 1
Pn
i
Zu einem Polynom p(X) =
i=0 pi X vom Grad n ≥ 1 heißt der Koeffizient
pn der führende Koeffizient von p. Ist der führende Koeffizient 1, heißt das Polynom
normiert. Von den drei Polynomen in Beispiel 4.4 ist nur w ein normiertes Polynom,
der führende Koeffizient von u ist 7, der von v gleich 3.
P
Def inition
von Polynomen). Zwei Polynome p(X) = ni=0 pi X i und
Pm 4.5 (Gleichheit
q(X) = i=0 qi X i über einem Körper K sind gleich, wenn deg p = deg q und pi = qi
für i = 0, 1, . . . , deg p.
Zur Definition ist äquivalent, dass zwei Polynome p, q über einem Körper K genau
dann gleich sind, wenn für t := max{deg p, deg q, 0}
koeffvekt (p) = koeffvekt (q)
43
in Kt+1 übereinstimmen.1 Insbesondere entspricht jeder Koeffizientenvektor einem
eindeutig bestimmten Polynom und umgekehrt:
Lemma 4.6. Sei K ein Körper und K[X]n die Menge aller Polynome über K mit
Grad kleiner oder gleich n. Dann ist die Abbildung
koeffvekn : K[X]n → Kn+1 ,
n
X
pi X i 7→ (p0 , p1 , . . . , pn )
i=0
bijektiv.
Beweis. Aus der Vorüberlegung folgt, dass die Abbildung koeffvekn injektiv ist,
d.h. für alle p(X), q(X) ∈ K[X]n mit koeffvekn (p) = koeffvekn (q) gilt auch die Gleichheit p(X) = q(X) der Polynome. Die Abbildung
ist ebenfalls surjektiv, denn für alle
P
a = (a0 , a1 , . . . , an ) ∈ Kn+1 ist p(X) = ni=0 ai X i ein Polynom mit koeffvekn (p) =
a.
P
P
Zu zwei Polynomen p(X) = ni=0 pi X i und q(X) = ni=0 qi X i über einem Körper K
definieren wir die Summe als
n
X
p(X) + q(X) :=
(pi + qi )X i
i=0
und, da es sich ebenfalls um ein Polynom handelt, schreibt man kurz (p + q)(X). In
Form der Koeffizientenvektoren bedeutet die Addition:
koeffvekn (p + q) = koeffvekn (p) + koeffvekn (q)
Wir führen zusätzlich die Multiplikation mit Körperelementen λ ∈ K ein (Skalarmultiplikation):
λ · p(X) :=
n
X
(λ · pi )X i .
i=0
Da es sich ebenfalls um ein Polynom handelt, schreibt man kurz (λp)(X). In Form
der Koeffizientenvektoren bedeutet die Multiplikation mit einem Skalar λ:
koeffvekn (λp) = λ · koeffvekn (p).
Beispiel 4.7. Betrachten wir ein Beispiel mit den beiden Polynomen p = X 2 und
q = 3X + X 2 + 2X 3 über R:
3 · p + 4 · q = (3X 2 ) + (12X + 4X 2 + 8X 3 ) = 12X + 7X 2 + 8X 3 .
Der Grad der Summe zweier Polynome p und q ist offenbar höchstens so groß wie das
Maximum von deg p und deg q. Er kann aber auch kleiner sein, wenn beide Polynome
den gleichen Grad haben und die Summe beider führender Koeffizienten Null ist. Zum
Beispiel:
(1 + X 2 ) + (1 − X 2 ) = 2.
1Beachte: Für p(X) = q(X) = 0 ist t = 0.
44
4. Polynome
Bei der Skalarmultiplikation bleibt der Grad des Polynoms erhalten, sofern der Skalar
nicht die Null ist.
Korollar 4.8. Sei K ein Körper, p, q Polynome über K und λ ∈ K \ {0}. Dann gilt:
deg(p + q) ≤ max{deg p, deg q}
deg(λp) = deg p.
Für λ = 0 ist deg(λp) = −∞.
Betrachten wir die Menge der Polynome mit beschränktem Grad, so ist diese unter
Addition und Multiplikation mit Skalaren abgeschlossen und bildet einen Vektorraum:
Satz 4.9 (Vektorraum der Polynome). Sei K ein Körper und K[X]n die Menge aller
Polynome über K mit Grad kleiner oder gleich n. Mit der Addition und der skalaren
Multiplikation ist K[X]n ein K-Vektorraum der Dimension n + 1.
Beweis. Die Koeffizientenfunktion koeffvekn : K[X]n → Kn+1 ist nach Lemma 4.6
bijektiv. Zusätzlich hat die Abbildung die homomorphen Eigenschaften
koeffvekn (p + q) = koeffvekn (p) + koeffvekn (q)
koeffvekn (λ · p) = λ · koeffvekn (p),
so dass K[X]n isomorph zum Vektorraum Kn+1 der Dimension n + 1 ist.
Eine Basis des K-Vektorraums K[X]n bilden die Polynome 1, X, X 2 , . . . , X n , denn:
Pn
i
a) Jedes Polynom p(X) =
i=0 pi X kann man als Linearkombination der
2
n
Polynome 1, X, X , . . . , X mit Koeffizienten aus K, nämlich p0 , p1 , . . . , pn ,
schreiben.
P
b) Die Polynome 1, X, X 2 , . . . , X n sind linear unabhängig, weil aus ni=0 λi Xi =
0 (beachte, 0 steht für das Nullpolynom) mit λ0 , λ1 , . . . , λn ∈ K und der Definition der Gleichheit von Polynomen folgt, dass λ0 = · · · = λn = 0 gilt.
Wir können diese Basis auch aus dem Isomorphismus koeffvekn : K[X]n → Kn+1
ableiten, da nach Satz 3.18 auf Seite 35 Isomorphismen Basen auf Basen abbilden.
Def inition 4.10
Das Produkt p(X) · q(X) zweier PolyP (Produkt von Polynomen).
P
i ist definiert als:
nome p(X) = ni=0 pi X i und q(X) = m
q
X
i=0 i
p(X) · q(X) :=
n+m
i
X X
i=0
k=0
i
pk qi−k X =
n+m
X
i=0
X
pk q l X i .
k+l=i
Dieses Produkt, man nennt es auch Konvolution oder Faltung, ist ebenfalls ein Polynom, für dass wir kurz (p · q)(X) schreiben. Die Koeffizienten u0 , u1 , . . . , un+m des
45
Produkts u(X) = p(X) · q(X) bestehen aus den Summen
u 0 = p0 q 0
u 1 = p0 q 1 + p1 q 0
u 2 = p 0 q 2 + p 1 q 1 + p2 q 0
..
.
un+m−2 = pn−2 qm + pn−1 qm−1 + pn qm−2
un+m−1 = pn−1 qm + pn qm−1
un+m = pn qm .
Die Summen sind symmetrisch: Vertauschen von p(X) und q(X) ändert nicht das
Produkt, da die Multiplikation im Körper kommutativ ist. Die Polynommultiplikation
ist daher ebenfalls kommutativ.
Die Konvolution entspricht genau dem Produkt, faßt man beide Polynome als
Summen mit der Variablen X auf:
X
X
X
n
m
n
n
n
X
X
pi X i ·
qi X i =
q 0 pi X i +
q1 pi X i+1 + · · · +
qm pi X i+m
i=0
i=0
i=0
i=0
i=0
Nach Ordnen der Monome erhalten wie die Formel zur Polynommultiplikation.
Satz 4.11 (Gradformel für Polynome). Seien p(X) und q(X) Polynome über einem
Körper. Dann gilt für den Grad des Produktes
deg(p · q) = deg p + deg q.
Beweis. Sei u = p · q das Produkt der beiden Polynome: Nehmen wir zunächst an, p
und q seien ungleich dem Nullpolynom. Mit
p(X) =
deg
Xp
pi X i
und q(X) =
i=0
deg
Xq
qi X i
i=0
folgt aus der Definition der Konvolution
u=
deg X
p+deg q X
i
i=0
pk qi−k X i
k=0
dass deg(p · q) ≤ deg p + deg q gilt. Wegen
6=0
udeg p+deg q
6=0
z }| { z }| {
= pdeg p · qdeg q 6= 0
ist der Grad von u mindestens deg p + deg q, so dass die Gleichheit gilt.2 Falls p oder q
das Nullpolynom ist, trifft dies auch auf das Produkt u zu und die Behauptung folgt
aus den Rechenregeln für −∞.
2Beachte: Der Schluß, dass das Produkt ungleich Null ist, wenn beide Faktoren ungleich Null
sind, gilt in einem Ring im allgemeinen nicht.
46
4. Polynome
Aus der Gradformel folgt, dass K[X]n kein Ring ist, denn zu p ∈ K[X]n mit deg p = n
gilt p · p ∈
/ K[X]n wegen deg(p · p) = 2n. Beschränken wir aber nicht den Grad der
Polynome, erhält man einen Ring:
Satz 4.12 (Polynomring). Sei K ein Körper. Dann ist die Menge K[X] aller Polynome über K ein kommutativer, nullteilerfreier Ring mit Eins.
Die Körperelemente K bettet man als konstante Polynome in den Ring K[X] ein und
schreibt K für die Menge der konstanten Polynome des Ringes K[X].
Beweis. Summe und Produkt zweier Polynome sind ebenfalls Polynome, so dass zu
zeigen ist:
a) (K[X], +) ist eine abelsche Gruppe.
b) Die Multiplikation ist assoziativ und kommutativ, es existiert ein Einselement.
c) Distributivgesetze: Für alle u, v, w ∈ K[X] gilt Linksdistributivität:
u(v + w) = u · v + u · w.
Wegen der Kommutativität der Multiplikation gilt damit auch Rechtsdistributivität:
(v + w)u = v · u + w · u.
Die Nullteilerfreiheit folgt aus der Gradformel (Satz 4.11). Man rechnet leicht nach,
dass (K[X], +) eine abelsche Gruppe ist. Das neutrale Element bezüglich der Addition
ist das Nullpolynom.
Die Multiplikation ist wie bereits gezeigt kommutativ, und das neutrale Element
bezüglich der Multiplikation ist das konstante Polynom p(X) = 1. Für den Nachweis
der Assoziativität betrachten wir den i-ten Koeffizienten des Produkts u(vw):
=(v·w)j
}|
z
{
X
X X
X
vs wt =
ur vs wt
ur
r+j=i
s+t=j
(Assoziativität von (K, ·))
r+j=i s+t=j
=
X
ur vs wt
r+s+t=i
=
X X
ur vs ·wt .
|
}
j+t=i
r+s=j
{z
=(u·v)j
Dieser stimmt mit dem i-ten Koeffizienten des Produkts (uv)w überein. Die einzelnen
Koeffizienten der beiden Polynome u(vw) und (uv)w sind identisch, so dass (uv)w =
u(vw) für alle u, v, w ∈ K[X] gilt.
Für den Nachweis des Distributivgesetzes betrachten wir den i-ten Koeffizienten
von u(v + w) und verwenden, dass im Körper das Distributivgesetz gilt:
X
X
X
X
ur (vs + ws ) =
(ur vs + ur ws ) =
ur vs +
ur ws
r+s=i
r+s=i
r+s=i
r+s=i
47
Dieser stimmt mit dem i-ten Koeffizienten der Summe uv + uw überein und wir
erhalten u(v + w) = u · v + u · w für alle u, v, w ∈ K[X].
In der Schule lernt man bereits Polynome kennen, genauer
Polynomfunktionen. Statt
P
als formale, endliche Potenzreihe faßt man p(X) = ni=0 pi X i als Funktion p : R → R
mit
p:
x 7→ p(x) :=
n
X
pi xi ∈ R
i=0
auf. Diese Anschauung als Funktionen unterscheidet sich aber von unserer Betrachungsweise. Zum Beispiel können zwei Polynome p, q ∈ K[X] verschieden sein, auch
wenn die zugehörigen Polynomfunktionen identisch sind, also p(x) = q(x) für alle
x ∈ K gilt. Sei zum Beispiel K = Z2 , d.h. Addition und Multiplikation erfolgen
modulo 2, und betrachte das Polynom p(X) = X 2 +2 X ∈ Z2 [X]:
p(0) = 02 +2 0 = 0
p(1) = 12 +2 1 = 0.
Obwohl die Werte der zugehörigen Polynomfunktion mit der des Nullpolynoms übereinstimmt, sind für uns beide Polynome nicht gleich.
Die Polynomfunktion p : x 7→ p(x) ist kein Körperhomomorphismus, denn zum
Beispiel für K = R und p(X) = X 2 gilt p(1 + 2) 6= p(1) + p(2). Wir erhalten aber
einen Einsetzungshomomorphismus, wenn man die Stelle x fixiert und als Argument
Polynome wählt:
Satz 4.13 (Einsetzungshomomorphismus). Sei K[X] ein Polynomring und x ∈ K ein
Körperelement. Dann ist die Abbildung
X
ϕx : K[X] → K, p(X) 7→ p(x) :=
pi xi
i≥0
ein Ringhomomorphismus, den man Einsetzungshomomorphismus nennt.
Beweis. Wir müssen die beiden Homomorphie-Eigenschaften Additivität und Homogenität nachweisen. Seien p, q ∈ K[X] mit
p(X) =
n
X
pi X
i
und q(X) =
i=0
m
X
qi X i .
i=0
Zum Nachweis der Additivität sei o.B.d.A. m = n (erweitere gegebenenfalls das Polynom geringeren Grades um die entsprechenden Monome mit Koeffizient Null). Es
gilt
ϕx (p + q) =
n
X
i=0
(pi +K qi )xi =
n
X
i=0
pi xi +K
n
X
i=0
qi xi = ϕx (p) + ϕx (q),
48
4. Polynome
wegen des Distributivgesetzes in K. Analog zeigt man die Homogenität ϕx (p · q) =
ϕx (p) · ϕx (q):
X
X
n
m
i
i
ϕx (p) · ϕx (q) =
pi x ·
qi x
i=0
=
=
n
X
i=0
pi q0 xi +
i=0
n+m
i
X X
i=0
n
X
pi q1 xi+1 + · · · +
i=0
n
X
pi qm xi+m
i=0
pk qi−k xi
k=0
= ϕx (p · q).
Wir haben das Distributivgesetz verwendet und dass Addition und Multiplikation in
K kommutativ sind. An welchen Stellen?
Wir haben Polynome über einem Körper K betrachtet. Allgemeiner definiert man
Polynome über kommutativen Ringen R mit Eins. Analog zu Satz 4.12 zeigt man,
dass R[X] ebenfalls ein kommutativer Ring mit Eins ist. Dann gilt aber im allgemeinen
deg(p · q) ≤ deg p + deg q,
denn es ist möglich, dass das Produkt beider führender Koeffizienten Null ist (zum
Beispiel 2X · 2X 2 ∈ Z4 [X]). Falls R Nullteiler enhält, so auch der Polynomring R[X].
Ein bekanntes Beispiel für Polynomringe über einem Ring ist der Ring Z[X] aller
Polynome mit ganzzahligen Koeffizienten. Für diesen Ring Z[X] gilt aber weiterhin
die Gleichheit bei der Gradformel — Warum?
2. Division mit Rest
Wir haben bereits in Kapitel 2.5 die Division mit Rest im Ring Z kennengelernt. Zu
a ∈ Z, b ∈ Z \ {0} existieren eindeutig bestimmte Zahlen q, r ∈ Z mit
a = qb + r
und 0 ≤ r < |b|.
Die Zahl r heißt Divisionsrest. Ein analoges Resultat leiten wir für den Polynomring
K[X] her, wobei man statt des Absolutbetrags den Grad des Polynoms verwendet.
Satz 4.14 (Polynomdivision). Sei K ein Körper und K[X] ein Polynomring sowie
a, b ∈ K[X] und b nicht das Nullpolynom. Dann existieren eindeutig bestimmte Polynome q, r ∈ K[X] mit
a = qb + r
und
deg r < deg b.
Beweis. Da b nicht das Nullpolynom ist, gilt deg b ≥ 0. Wir beweisen die Aussage
in zwei Schritten:
(1) Zunächst zeigen wir die Existenz und anschließend,
(2) dass die Polynome q, r ∈ K[X] eindeutig bestimmt sind.
Die erste Behauptung ist offensichtlich, wenn deg a < deg b, da dann q = 0 und r = a
die Bedingung erfüllen. Wir zeigen durch Induktion über deg a, dass die Aussage auch
für deg a ≥ deg b ≥ 0 gilt.
2. Division mit Rest
49
• Verankerung: Sei deg a = 0, also a(X) = a0 . Wegen deg b ≤ deg a und b 6= 0
hat das Polynom b die Form b(X) = b0 . Setze q := a0 b−1
0 und r = 0.
• Induktionsschritt: Sei n := deg a > 1 und m := deg b ≤ n. Wir nehmen an,
die Behauptung sei bereits für alle Polynome a0 , b ∈ [X] mit deg a0 < n gezeigt und belegen die Behauptung für n. Nach Induktionsannahme existieren
zu a0 , b ∈ K[X] mit deg a0 < n Polynome q 0 , r0 ∈ K[X] mit
a0 = q 0 b + r0
und deg r0 < deg b.
n−m und a0 := a − q 00 b. Man rechnet leicht nach, daß
Setze q 00 := an b−1
m X
deg(q 00 b) = n sowie die beiden Polynome q 00 b und a den gleichen führenden
Koeffizienten an haben. Dieser hebt sich in der Differenz a0 = a − q 00 b weg,
so dass deg a0 < n gilt.
Auf dieses Polynom a0 wenden wir die Induktionsannahme an. Es gibt
Polynome q 0 , r0 ∈ K[X] mit
a0 = q 0 b + r
und deg r0 < deg b.
Es gilt
a = q 00 b + a0 = q 00 b + q 0 b + r = (q 00 + q 0 )b + r0
wobei deg r0 < deg b. Mit q := q 00 + q 0 und r := r0 erhalten wir die Behauptung.
Es ist noch die Eindeutigkeit nachzuweisen. Seien q, r, q 0 , r0 ∈ K[X] Polynome mit
a = qb + r
a = q 0 b + r0
und deg r < deg b
und deg r0 < deg b.
Wir zeigen q = q 0 und r = r0 . Aus 0 = a − a = qb + r − (q 0 b + r) erhält man:
(q − q 0 )b = r − r0 .
Wegen deg(r − r0 ) ≤ max{deg r, deg r0 } < deg b ist der Grad des Polynoms (q − q 0 )b
kleiner als der des Polynoms b. Aus der Gradformel für Polynome
deg(q − q 0 ) + deg(b) = deg((q − q 0 )b) < deg b
ergibt sich deg(q − q 0 ) = −∞ oder äquivalent, daß q − q 0 das Nullpolynom ist. Also
ist q = q 0 und r = a − qb = a − q 0 b = r0 .
Betrachten wir ein Beispiel zur Division mit Rest:
Beispiel 4.15. Wir wollen das Polynom X 5 durch X 2 − 1 über einem beliebigem
Körper dividieren.
X5
: (X 2 − 1) = (X 2 − 1) · (X 3 + X) + X
5
3
X −X
X3
X3 − X
X
50
4. Polynome
Man kann zeigen, dass der Divisionrest von X k durch (X n − 1) gleich X k mod n ist.
Allgemeiner ist der Divisionsrest eines Polynoms dividiert durch (X n − 1):
m
m
X
X
i
n
pi X mod (X − 1) =
pi X i mod n .
i=0
i=0
Sei f ∈ K[X] ein nicht-konstantes Polynom, zum Beispiel X n − 1. Wie im Fall
der ganzen Zahlen führt man für p, q ∈ K[X] Addition und Multiplikation verbunden
mit einer Modulo-Reduktion durch:
p +f q := (p + q) mod f
p ·f q := (p · q) mod f
Wie im Fall der ganzen Zahlen modulo n, die wir in Abschnitt 5 untersucht haben,
kann man über die Restklassen modulo f einen Ring definieren. Den entstehenden
Ring bezeichnet man als Faktorring und schreibt K[X]/(f ). Für geeignete Polynome
ist dies sogar ein Körper, wie wir in Kapitel 15 ab Seite 191 sehen werden.
Beispiel 4.16. Sei K = Z2 und f (X) := X 2 + X + 1. Da der Divisionsrest den Grad
kleiner als deg(X 2 + X + 1) = 2 hat, besteht Z2 [X]/(f ) genau aus den Polynomen
mit Grad maximal 1:
0, 1, X, X + 1.
Für die Addition gilt
(a + bX+) +f (a0 + b0 X) = (a + a0 ) + (b + b0 )X.
Die Multiplikationstabelle sieht wie folgt aus:
·
0
1
X
X +1
0
1
X
X +1
0
0
0
0
0
1
X
X +1
0
X
X +1
1
0 X +1
1
X
Der Leser überzeuge sich, dass F4 := Z2 [X]/(f ) ein Körper mit vier Elementen ist.
F4 hat den Unterkörper {0, 1}.
Beispiel 4.17. Untersuchen wir zum Abschluß ein weiteres Beispiel, nämlich K = R
und f (X) = X 2 + 1. Da der Divisionsrest den Grad kleiner als deg(X 2 + 1) = 2 hat,
besteht R[X]/(f ) genau aus den Polynomen mit Grad maximal 1:
R[X]/(X 2 + 1) = {a + bX | a, b ∈ R } .
Für die Addition gilt
(a + bX) +f (a0 + b0 X) = (a + a0 ) + (b + b0 )X
und wegen X 2 mod f = −1 erhalten wir für das Produkt:
(a + bX) ·f (a0 + b0 X) = (aa0 + ab0 X + a0 bX + bb0 X 2 ) mod f
= (aa0 + ab0 X + a0 bX − bb0 ) mod f
= aa0 − bb0 + (a0 b + ab0 )X
3. Nullstellen
51
Man kann nachrechnen, dass dies ein Körper ist (aufwendig!). Allerdings kennen wir
diesen Körper bereits: Man überzeuge sich, dass die Abbildung
ψ : C → R[X]/(X 2 + 1),
a + ib 7→ a + bX
einen Isomorphismus bildet, also ψ(x + y) = ψ(x) +f ψ(y) und ψ(x · y) = ψ(x) ·f ψ(y)
erfüllt sowie bijektiv ist. Dann gilt
R[X]/(X 2 + 1) ' C
und es folgt, dass R[X]/(X 2 + 1) wie C ein Körper ist.
3. Nullstellen
Wir wollen die Nullstellen von Polynomen untersuchen. Vor allem interessieren wir uns
für Nullstellen von Polynomen p ∈ C[X] über dem Körper C und seinem Unterkörper
R.
Pn
i
Def inition 4.18 (Nullstelle). Sei p(X) =
i=0 pi X ∈ K[X] ein Polynom über
0
einem Körper K und K ⊆ K ein Unterkörper
von K. Ein Element λ ∈ K0 heißt
P
n
Nullstelle oder Wurzel von p (über K0 ), falls i=0 pi λi = 0.
Ein konstantes Polynom p(X) = p0 hat nur dann eine Nullstelle, wenn es das Nullpolynom ist. Falls ein Polynom eine Nullstelle λ hat, kann man den Linearfaktor (X −λ)
abspalten:
Satz 4.19 (Satz von Ruffini). Sei p ∈ K[X] ein Polynom (ungleich dem Nullpolynom)
mit Nullstelle λ ∈ K. Dann gibt es ein Polynom q ∈ K[X] mit
p = (X − λ)q
und
deg q = deg p − 1
Beweis. Division mit Rest von p durch (X − λ) ergibt:
p = q(X − λ) + r
mit deg r < 1.
Der Rest r ist ein konstantes Polynom. Der Einsetzungshomomorphismus liefert mit
0 = ϕλ (p) = ϕλ (q) · ϕλ (X − λ) +ϕλ (r) = ϕλ (r),
| {z }
=0
dass ϕλ (r) = 0 und das Polynom r eine Nullstelle hat. Also ist r das Nullpolynom. Es ist möglich, dass man den Linearfaktor (X − λ) mehrfach abspalten kann.
Def inition 4.20 (Vielfachheit einer Nullstelle). Sei λ ∈ K die Nullstelle eines Polynoms p ∈ K[X] ungleich dem Nullpolynom. Die größte Zahl ν ≥ 1 mit
p = (X − λ)ν q
und
q ∈ K[X]
heißt die Vielfachheit der Nullstelle λ.
Die Anzahl der Nullstellen und ihre Mehrfachheiten läßt sich durch den Grad des
Polynoms nach oben abschätzen:
52
4. Polynome
Lemma 4.21. Sei p ∈ K[X] ein Polynom über einem Körper K, das ungleich dem
Nullpolynom ist. Seien λ1 , . . . , λm ∈ K Nullstellen von p und ν1 , . . . , νm ihre Vielfachheiten. Dann gilt
m
X
νi ≤ deg p.
i=1
Insbesondere ist die Anzahl der Nullstellen maximal deg p.
Beweis. Wir wenden iterativ Satz 4.19 an und erhalten
m
Y
p=
(X − λi )νi q
i=1
mit q ∈ K[X] ungleich dem Nullpolynom (formal durch einen einfachen Induktionsbeweis über die Anzahl der Nullstellen, wobei vielfache Nullstellen entsprechend
mehrfach gezählt werden, zu belegen). Aus der Gradformel erhalten wir:
deg p =
m
X
νi + deg q
i=1
Mit deg q ≥ 0 folgt die Behauptung.
Wir schließen weiter:
Pn
i
Korollar 4.22. Sei p(X) =
i=0 pi X ein Polynom über einem Körper K. Das
Polynom p ist genau dann das Nullploynom, wenn es mehr als n Nullstellen hat.
Beweis. Falls p das Nullpolynom ist, gilt die Aussage offenbar. Für p ungleich dem
Nullpolynom hat es nach Lemma 4.21 maximal deg p ≤ n Nullstellen.
Das Polynom p(X) := 2X 2 + 2 ∈ C[X] hat über R keine Nullstellen, über den
komplexen Zahlen C allerdings die beiden Nullstellen ±i. Man sagt, es zerfällt über
C in Linearfaktoren:
2X 2 + 2 = 2(X + i)(X − i)
Wir wollen mit Hilfe des Fundamentalsatzes der Algebra, den C.F. Gauß3 erstmals
1799 in seiner Dissertation bewies, zeigen, dass jedes nicht-konstante Polynom in C[X]
in Linearfaktoren zerfällt.
Fakt 4.23 (Fundamentalsatz der Algebra). Jedes nicht-konstante Polynom p ∈ C[X]
hat mindestens eine Nullstelle über C.
Es gibt zahlreiche Beweise (u.a. hat auch Gauß später weitere Beweise gegeben),
die allerdings Hilfsmittel aus der Analysis verwenden. Wir verwenden den Fundamentalsatz, um nachstehendes Resultat zu folgern:
Lemma 4.24. Jedes Polynom p ∈ C[X] ungleich dem Nullpolynom zerfällt in Linearfaktoren, d.h. es gibt a, λ1 , . . . , λn ∈ C mit a 6= 0, n = deg p und
p(X) = a · (X − λ1 )(X − λ2 ) · · · (X − λn ).
3Carl Friedrich Gauß, 1777–1855, siehe Fußnote auf Seite 4
3. Nullstellen
53
Beweis. Wir zeigen die Aussage durch Induktion über n = deg p.
• Induktionsverankerung für n = 0. Das Polynom hat die Form p(X) = p0 .
Mit a := p0 6= 0 folgt die Behauptung.
• Induktionsschluß von n − 1 auf n. Nach Induktionsannahme zerfallen alle
Polynome q ∈ C[X], deren Grad gleich n − 1 ≥ 0 ist, in Linearfaktoren.
Gemäß Fundamentalsatz der Algebra hat das Polynom p(X) ∈ C[X] eine
Nullstelle λ1 ∈ C. Aus Satz 4.19 erhalten wir:
p(X) = (X − λ1 )q(X)
mit λ1 ∈ C, q(X) ∈ C[X] und deg q = n − 1. Nach Induktionsannahme
zerfällt q(X) in Linearfaktoren, d.h. es gibt a, λ2 , λ3 , . . . , λn ∈ C mit
q(X) = a · (X − λ2 )(X − λ3 ) · · · (X − λn ).
Mit p(X) = (X − λ1 )q(X) folgt die Behauptung.
Eine Zerlegung in Linearfaktoren ist über R im allgemeinen nicht möglich, wie das
Beispiel des Polynoms 2X 2 +2 zeigt. Aber wir werden sehen, dass man jedes Polynom
p(X) ∈ R[X] als Produkt von Linearfaktoren und Polynomen zweiten Grades in R[X]
schreiben kann.
Lemma 4.25. Sei p ∈ R[X] ungleich dem Nullpolynom und λ ∈ C eine Nullstelle
von p. Dann ist auch die konjugierte komplexe Zahl4 λ eine Nullstelle von p und
insbesondere stimmen die Vielfachheiten der Nullstelle λ und λ überein.
P
Beweis. Sei p(X) := ni=0 pi X i . Wegen pi = pi folgt aus den Homomorphie-Eigenschaften von x 7→ x
0=0=
n
X
pi λ i =
i=0
n
X
pi λ i =
i=0
n
X
pi λ i ,
i=0
so dass λ ebenfalls eine Nullstelle ist.
Für die Aussage der Vielfachheit bezeichne ν(p, x) die Vielfachheit der Nullstelle
x des Polynoms p. Im Fall, dass die vorgegebene Nullstelle λ reell ist, also λ ∈ R,
gilt λ = λ und ν(p, λ) = ν(p, λ ). Wir zeigen durch Induktion über ν(p, λ), dass für
λ ∈ C \ R gilt
ν(p, λ) ≤ ν(p, λ ).
(9)
• Induktionsverankerung ν(p, λ) = 1: Weil mit λ auch λ eine Nullstelle ist, gilt
ν(p, λ) = 1 ≤ ν(p, λ ).
• Induktionsschluß von ν(p, λ) − 1 auf ν(p, λ): Wir nehmen an, dass für alle
Polynome p0 mit Nullstelle λ und ν(p0 , λ) = ν(p, λ) − 1 gilt:
ν(p0 , λ) ≤ ν(p0 , λ ).
(10)
4Zur Erinnerung: a + ib = a − ib. Die Abbildung x 7→ x ist ein Automorphismus des Körpers C
mit x = x. Es gilt y = y gdw. y ∈ R.
54
4. Polynome
Da mit λ ebenfalls λ 6= λ eine Nullstelle ist, können wir gemäß Satz 4.19 die
beiden Linearfaktoren (X − λ) und (X − λ ) abspalten:
p = (X − λ)(X − λ ) · p0
Weil ν(p0 , λ) = ν(p, λ) − 1 ist, wenden wir die Induktionsannahme (10) an
und erhalten mit ν(p0 , λ ) = ν(p, λ ) − 1 die Behauptung (9).
Die Abschätzung ν(p, λ) ≥ ν(p, λ) folgt bereits aus Ungleichung (9), man setze λ ← λ
und beachte λ = λ. Damit ist die Gleichheit bewiesen.
Sei λ := a + ib ∈ C \ R und λ = a − ib die konjugiert komplexe Zahl (beachte λ 6= λ).
Das normierte Polynom
q(X) := (X − λ)(X − λ )
= (X − a − ib)(X − a + ib)
= X 2 − aX − ibX − aX + a2 + iab + ibX − iab − i2 b2
= X 2 − 2aX + a2 + b2
hat zwar reelle Koeffizienten, aber keine Nullstelle über R (Warum?). Nach Lemma
4.24 zerfällt jedes Polynom p(X) mit reellen Koeffizienten über C in Linearfaktoren.
Wir fassen die Linearfaktoren (X − λ) und (X − λ ) der echt komplexen Nullstellen
λ des Polynoms p(X) zusammen, nach Lemma 4.25 treten sie jeweils paarweise auf:
Satz 4.26. Jedes Polynom p ∈ R[X] ungleich dem Nullpolynom hat eine Zerlegung
p(X) = a(X − λ1 )(X − λ2 ) . . . (X − λr ) · q1 (X) · q2 (X) · · · qc (X)
mit a, λ1 , λ2 , . . . , λr ∈ R, a 6= 0, und normierten Polynomen q1 (X), . . . , qc (X) ∈
R[X] vom Grad 2 ohne Nullstelle über R. Insbesondere hat das Polynom p genau r
Nullstellen über R und es gilt deg p = r + 2c.
Aus der Gleichung deg p = r + 2c erhalten wir für Polynome p mit ungeradem Grad,
dass r ebenfalls ungerade ist.
Korollar 4.27. Jedes Polynom p ∈ R[X] mit ungeradem Grad hat mindestens eine
Nullstelle über R.
Der Fundamentalsatz der Algebra ist eine reine Existenzaussage, aus dem Satz läßt
sich kein Verfahren zur Bestimmung von Nullstellen ableiten. Für ein Polynom aX 2 +
bX + c ∈ C[X] zweiten Grades erhalten wir die Nullstellen λ1 , λ2 aus der seit über
2000 Jahren bekannten pq-Formel
√
−b ± b2 − 4ac
λ1,2 =
.
2a
Etwas kompliziertere Formeln dieser Art gibt es auch für Polynome vom Grad 3 und
4. Die Formel für Polynome dritten Grades veröffentlichte 1545 G. Cardano5, allerdings wurde sie bereits um 1515 von S. del Ferro (1465–1526) oder N. Fontana6
gefunden, aber nicht publiziert. Cardanos Schüler L. Ferrari (1522–1565) führte
5Geronimo Cardano, 1501–1576, siehe Fußnote auf Seite 16.
6auch Tartaglia, d.h. Stotterer, genannt.
4. Interpolation
55
um 1540 den Fall eines Polynoms vierten Grades auf die Nullstellenbestimmung eines
Polynoms dritten Grades zurück.
Für Polynome ab Grad 5 hat 1826 N.H. Abel7 gezeigt, dass es solche allgemeinen
Formeln aus algebraischen Gründen nicht geben kann. Für praktische Anwendung
kennt man in der angewandten Mathematik bzw. Numerik aber effiziente Verfahren
zur Bestimmung oder Approximation von Nullstellen von Polynomen.
4. Interpolation
Wir haben zu einem Polynom p(X) ∈ K[X]n die Polynomfunktion x 7→ p(x) kennengelernt. In diesem Abschnitt suchen wir zu gegebenen Punkten (ai , bi ), i = 0, . . . , n,
ein Polynom p ∈ K[X]n mit p(ai ) = bi für alle i. Die Motivation für diese Fragestellung, dem Interpolationsproblem, ist vielfältig. Häufig sollen gemessene Daten
geeignet verbunden werden. In der Mathematik ist Interpolation ein Hilfsmittel für
die Approximation von Funktionen. In der Informatik kennt man ein Verfahren basierend auf der Interpolation, um zwei Polynome schneller als mit der Schulmethode
zu multiplizieren.
Def inition 4.28 (Interpolationsproblem). Sei K ein Körper. Das Interpolationsproblem lautet:
• Gegeben n + 1 Paare (ai , bi ) ∈ K2 , i = 0, . . . , n, mit paarweise verschiedene
ai .
• Finde ein Polynom p ∈ K[X]n mit p(ai ) = bi für i = 0, . . . , n.
Die Werte a0 , . . . , an heißen Stützstellen, die eindeutig bestimmte Lösung p(X) nennt
man Interpolationspolynom.
Bevor wir die Existenz des Interpolationspolynoms zeigen, beweisen wir, dass, wenn
es existiert, in diesem Fall eindeutig bestimmt ist:
Lemma 4.29. Es gibt höchstens ein Interpolationspolynom.
Beweis. Seien p, q ∈ K[X]n Interpolationspolynome. Wir zeigen, dass p = q oder
äquivalent d := p − q das Nullpolynom ist. Nach Lemma 4.8 ist der Grad des Differenzpolynoms d durch n beschränkt:
deg d = deg(p − q) ≤ max{p, q} ≤ n.
P
Das Differenzpolynom d = ni=0 di X i hat mindestens n + 1 Nullstellen, denn beide
Polynome p und q nehmen an den Stützstellen a0 , . . . , an jeweils den gleichen Wert
an:
d(ai ) = p(ai ) − q(ai ) = bi − bi = 0 für i = 0, . . . , n.
Nach Korollar 4.22 ist das Polynom d das Nullpolynom.
7Niels Hendrik Abel, 1802–1829, siehe Fußnote auf Seite 21.
56
4. Polynome
Um zu zeigen, dass das Interpolationspolynom existiert und wie
P man es berechnen
kann, fassen wir Koeffizienten des gesuchten Polynoms p(X) = ni=0 pi X i als Unbekannte auf. Wir suchen p0 , . . . , pn ∈ K mit
p(ai ) =
n
X
pj aji = bi
für i = 0, . . . , n.
j=0
Dies ist ein lineares Gleichungsystem in

1 a0 a20 · · ·
1 a1 a2 · · ·
1

 .. ..
..
. .
.
|
1 an a2n · · ·
{z
den n + 1 Variablen p0 , . . . , pn :
    
an0
p0
b0
n




a1   p1   b1 

..  ·  ..  =  ..  .




.
.
.
ann
=:Vn+1 (a0 ,a1 ,...,an )
pn
(11)
bn
}
Der Rang der (n+1)×(n+1)-Koeffizientenmatrix Vn+1 (a0 , . . . , an ) ist maximal n+1,
so dass das lineare Gleichungsystem (11) lösbar ist. Da höchstens ein Interpolationspolynom, d.h. eine Lösung des linearen Gleichungsystems, existiert, ist der Rang der
Koeffizientenmatrix gleich n + 1.
Satz 4.30 (Interpolationspolynom). Sei K ein Körper. Zu n+1 Paaren (ai , bi ) ∈ K2 ,
i = 0, . . . , n, mit paarweise verschiedenen ai gibt es genau ein Interpolationspolynom
p ∈ K[X]n , so dass p(ai ) = bi für i = 0, . . . , n.
Eine Matrix der Form Vn+1 (a0 , . . . , an ) heißt Vandermonde-Matrix. Falls die Werte a0 , . . . , an paarweise verschieden sind, hat die Matrix vollen Rang, denn zum linearen Gleichungssystem (11) existiert genau eine Lösung. Sollten zwei Werte ai , aj mit
i 6= j identisch sein, sind zwei Zeilen der Koeffizientenmatrix gleich und die Matrix
hat nicht vollen Rang.
Korollar 4.31 (Vandermonde-Matrix). Sei K ein Körper und a0 , . . . , an−1 ∈ K. Die
n × n-Vandermonde-Matrix


1 a0
a20 · · · an−1
0
1 a1

a21 · · · an−1
1


Vn (a0 , . . . , an−1 ) =  .
.
.
.
..
..
.. 
 ..

n−1
2
1 an−1 an−1 · · · an−1
hat genau dann vollen Rang, wenn a0 , . . . , an−1 paarweise verschieden sind.
Das Interpolationspolynom können wir mit dem Gauß-Algorithmus bestimmen. Überlicherweise verwendet man die Lagrange’sche Form des Interpolationspolynoms. Zu
gegebenen Stützstellen a0 , . . . , an sei
n
Y
X − aj
ì (X) :=
ai − aj
j=0
j6=i
für i = 0, . . . , n.
4. Interpolation
57
Diese Polynome ì (X) ∈ K[X]n heißen Lagrange-Koeffizienten oder auch LagrangePolynome. Man rechnet leicht folgende charakteristische Eigenschaft der LagrangeKoeffizienten nach:
(
1 falls i = k
ì (ak ) = δi,k =
0 falls i 6= k.
Das gesuchte Interpolationspolynom lautet in der Lagrange’schen Form
n
X
L(X) :=
ì (X) · bi .
i=0
Offenbar ist L(ai ) = bi und wegen deg ì (X) ≤ n gilt L(X) ∈ K[X]n .
Beispiel 4.32. Wir suchen ein Polynom p ∈ R[X]2 mit p(1) = 3, p(2) = 5 und
p(3) = 10. Die Lagrange-Koeffizienten lauten
(X − 2)(X − 3)
= 12 (X 2 − 5X + 6)
(1 − 2)(1 − 3)
(X − 1)(X − 3)
`1 (X) =
= −(X 2 − 4X + 3)
(2 − 1)(2 − 3)
(X − 1)(X − 2)
`2 (X) =
= 12 (X 2 − 3X + 2).
(3 − 1)(3 − 2)
Das gesuchte Polynom lautet
`0 (X) =
p(X) = 3 · `0 (X) + 5 · `1 (X) + 10 · `2 (X)
= 32 X 2 − 52 X + 4.
Man überzeuge sich durch Nachrechnen, dass die Lösung korrekt ist.
Kapitel 5
Der Rang von
Matrizen
Unser Ziel ist die Entwicklung eines Kriteriums für die Lösbarkeit von inhomogenen
linearen Gleichungssystemen sowie für die Bestimmung der Dimension des Lösungsraums des zugehörigen homogenen linearen Gleichungssystems.
1. Zeilenrang und Spaltenrang
Die Spaltenvektoren einer Matrix erzeugen einen Untervektorraum, den sogenannten
Spaltenraum der Matrix:
Def inition 5.1 (Spaltenraum, Spaltenrang). Sei A = (A1 , . . . , An ) ∈ Mm,n (K) Matrix mit den Spalten A1 , . . . , An ∈ Km . Dann nennen wir
SR(A) := span(A1 , . . . , An )
den Spaltenraum von A. Die Dimension des Spaltenraums dim SR(A) nennen wir den
Spaltenrang von A.
Nach Lemma 3.22 ist die Dimension des Spaltenraums gleich der maximalen Zahl
linear unabhängiger Spalten einer Matrix. Für die Zeilen einer Matrix definiert man
analog Zeilenraum und Zeilenrang:
Def inition 5.2 (Zeilenraum, Zeilenrang). Sei A = (z1 , . . . , zm )T ∈ Mm,n (K) Matrix
T ∈M
mit Zeilen z1T , . . . , zm
1,n (K). Dann nennen wir
ZR(A) := span(z1 , . . . , zm )
den Zeilenraum von A. Die Dimension des Zeilenraums dim ZR(A) heißt Zeilenrang
von A.
Auch in diesem Fall gilt wegen Lemma 3.22, dass die Dimension des Zeilenraums
gleich der maximalen Zahl linear unabhängiger Zeilen ist.
Spaltenraum und Zeilenraum einer Matrix sind im allgemeinen nicht gleich. Beide
Vektorräume haben aber die gleiche Dimension:
59
60
5. Der Rang von Matrizen
Satz 5.3. Zeilenrang und Spaltenrang einer Matrix sind stets gleich.
Beweis. Wir führen einen direkten Beweis mit Hilfe des Gauß-Verfahrens: Sei A ∈
Mm,n (K) Matrix. Dann gibt es nach Übungsaufgabe 4.2
• Permutationsmatrizen P ∈ Mm,m (K) und P 0 ∈ Mn,n (K),
• T ∈ UDm , T 0 ∈ ODn ,
• und D = (dij ) ∈ Mm,n (K) mit d11 · · · drr 6= 0 und dij = 0 sonst,
so dass gilt:
P AP 0 = T DT 0 .
Dabei ist T −1 die Zeilentransformationen im Gauß-Verfahren zu P AP 0 . DT 0 ist in
Treppenform mit r Stufen. Die Matrizen T und T 0 sind nicht nur invertierbar, sondern
es gilt sogar t11 = · · · = tmm = 1 und t011 = · · · = t0nn = 1. O.B.d.A. sei P = Im und
P 0 = In , denn Zeilen- oder Spaltenvertauschungen ändern weder den Zeilen- noch den
Spaltenrang. Für die Diagonalmatrix D gilt offenbar
dim ZR(D) = dim SR(D) = r.
Wir zeigen, dass elementare Zeilen- und Spaltentransformationen weder den Zeilennoch den Spaltenrang ändern. Die Behauptung folgt dann aus:
dim ZR(A) = dim ZR(D) = dim SR(D) = dim SR(A).
T ∈M
Seien A1 , . . . , An ∈ Km die Spalten und z1T , . . . , zm
1,n (K) die Zeilen von A. Wir
betrachten die Zeilentransformation A 7→ Tij (λ)A, die das λ-fache der j-ten Zeile zur
i-ten Zeile von A addiert: A 7→ Ti,j (λ) bewirkt zi0 = zi + λzj . Wir zeigen, dass sich
der Zeilenraum nicht ändert und die Dimension des Spaltenraums gleichbleibt:
a) Es gilt ZR(A) = ZR(Tij (λ)A), denn
• wegen zi0 = zi + λzj ist ZR(Tij (λ)A) ⊆ ZR(A) und
• wegen zi = zi0 − λzj ist ZR(A) ⊆ ZR(Tij (λ)A).
b) Es gilt dim SR(A) = dim SR(Tij (λ)A), denn die Multiplikation mit Tij (λ)
liefert einen Vektorraum-Isomorphismus
ψ : SR(A) → SR(A),
S 7→ Tij (λ)S.
Für jeden Vektorraum-Isomorphismus ψ gilt nach Satz 3.18 auf Seite 35, dass
A1 , . . . , An genau dann linear unabhängig sind, wenn ψ(A1 ), . . . , ψ(An )linear
unabhängig sind. Also ist dim SR(A) = dim SR(Tij (λA).
Man nutzt die Gleichheit von Spaltenrang und Zeilenrang und spricht vom Rang einer
Matrix:
Def inition 5.4 (Rang). Sei A ∈ Mm,n (K). Dann heißt
rang(A) := dim SR(A) = dim ZR(A)
der Rang von A.
Der Rang ist eine Invariante bei der Multiplikation mit invertierbaren Matrizen:
2. Rang und lineare Gleichungssysteme
61
Satz 5.5. Seien A ∈ Mm,n (K) und B ∈ Mm,m (K), B 0 ∈ Mn,n (K) invertierbare
Matrizen. Dann gilt:
rang A = rang(BA) = rang(AB 0 ).
Beweis. Der Beweis rang A = rang(BA) erfolgt direkt über Isomorphie von Vektorräumen: Die Abbildung
ψ : SR(A) → SR(BA),
x 7→ Bx
∼ SR(BA). Dahe sind insbeist ein Vektorraum-Isomorphismus und somit gilt SR(A) =
sondere die Dimensionen beider Vektorräume gleich, und es gilt rang(A) = rang(BA).
Der Beweis von rang(A) = rang(AB 0 ) führt man analog.
2. Rang und lineare Gleichungssysteme
Inhomogene lineare Gleichungssysteme Ax = b haben genau dann eine Lösung, wenn
der Vektor b von den Spalten von A linear abhängig ist. Hieraus folgt auch, dass
homogene lineare Gleichungssysteme stets eine Lösung besitzen, denn der Nullvektor
ist linear abhängig. Wir formulieren dieses Kriterium mittels der Begriffe Spaltenraum
und Spaltenrang:
Satz 5.6 (Lösbarkeitskriterium für lineare Gleichungssysteme). Sei (A, b) ∈ Mm,n+1 (K)
erweiterte Matrix des linearen Gleichungssystems Ax = b. Dann gilt
a) Lös(A, b) 6= ∅ ⇐⇒ SR(A) = SR(A, b).
b) Lös(A, b) = ∅ ⇐⇒ dim SR(A, b) = dim SR(A) + 1.
Beweis. Sei A = (A1 , . . . , An ) ∈ Mm,n (K) Matrix mit Spalten A1 , . . . , An ∈ Km und
b ∈ Km . Wir zeigen beide Behauptungen direkt:
a) Lös(A, b) 6= ∅ ⇐⇒ SR(A) = SR(A, b)
Da genau dann Lös(A, b) 6= ∅, wenn ein es ein x ∈ Kn gibt mit Ax = b, gilt:
Lös(A, b) 6= ∅
⇐⇒
∃x :
n
X
Ai xi = b.
i=1
Also:
Lös(A, b) 6= ∅
⇐⇒
b ∈ span(A1 , . . . , An ) = SR(A).
Weil b ∈ SR(A) äquivalent zu SR(A) = SR(A, b) ist, folgt die Behauptung:
Lös(A, b) 6= ∅
⇐⇒
SR(A) = SR(A, b).
b) Lös(A, b) = ∅ ⇐⇒ dim SR(A, b) = dim SR(A) + 1
Wegen Teil a) gilt Lös(A, b) = ∅ genau dann, wenn SR(A) 6= SR(A, b). Aus
SR(A) 6= SR(A, b)
⇐⇒
span(A1 , . . . , An ) 6= span(A1 , . . . , An , b),
|
{z
} |
{z
}
=SR(A)
=SR(A,b)
folgt mit dim SR(A) ≤ dim SR(A, b) ≤ dim SR(A) + 1:
Lös(A, b) = ∅ ⇐⇒ dim SR(A, b) = dim SR(A) + 1.
Dies war zu zeigen.
62
5. Der Rang von Matrizen
Der Rang einer Matrix gibt uns ein Kriterium für die Lösbarkeit des entsprechenden
homogenen linearen Gleichungssystems:
Satz 5.7. Sei A ∈ Mm,n (K). Für das zugehörige homogene lineare Gleichungssystem
Ax = 0 gilt
dim Lös(A, 0) = n − rang(A).
Beweis. Sei A ∈ Mm,n (K). Nach Übungsaufgabe 4.2 gibt es
• Permutationsmatrizen P ∈ Mm,m (K) und P 0 ∈ Mn,n (K),
• T ∈ UDm , T 0 ∈ ODn und
• D = (dij ) ∈ Mm,n (K) mit d11 · · · drr 6= 0 und dij = 0 sonst,
so dass gilt:
P AP 0 = T DT 0 .
O.B.d.A. sei P = Im und P 0 = In . Für die Lösungsmenge des zur Diagonalmatrix D
gehörenden homogenen linearen Gleichunggsystem Dx = 0 gilt
Lös(D, 0) = span(er+1 , . . . , en ),
denn wegen
d11 x1 = 0, . . . , drr xr = 0
und d11 · · · drr 6= 0
gilt x1 = . . . = xr = 0 und xr+1 , . . . , xn sind frei wählbar. Also ist
dim Lös(D, 0) = n − r = n − rang D.
Es bleibt zu zeigen, dass die Multiplikation mit den Elementarmatrizen T und T 0
weder die Dimension des Lösungsraums noch den Rang der Matrix verändert. Wir
zeigen zuerst, dass
Lös(T DT 0 , 0) = T 0
−1
Lös(D, 0).
Aufgrund von Bemerkung 1.13 auf Seite 12 und Satz 5.6 auf Seite 61 sind T und T 0
invertierbar. Es gilt:
x ∈ Lös(T DT 0 , 0)
⇐⇒
T DT 0 x = 0.
Multiplikation der Gleichung T DT 0 x = 0 mit T liefert:
x ∈ Lös(T DT 0 , 0)
⇐⇒
DT 0 x = 0,
d.h. x ∈ Lös(T DT 0 , 0) genau dann, wenn T 0 x ∈ Lös(D, 0):
x ∈ Lös(T DT 0 , 0)
Also ist Lös(T DT 0 , 0) = T
0 −1
⇐⇒
x ∈ T0
−1
Lös(D, 0).
Lös(D, 0) und damit gilt
dim Lös(T DT 0 , 0) = dim(T 0
Aus Lemma 5.5 folgt rang D =
rang(T DT 0 ).
−1
Lös(D, 0)).
Kapitel 6
Lineare Abbildungen
Wir nennen eine Abbildung zwischen zwei algebraischen Strukturen Homomorphismus, wenn die Funktion mit der bzw. den Verknüpfungen der Struktur verträglich
ist. Für Vektorräume heißen solche Funktionen lineare Abbildungen.
1. Eigenschaften
Seien U und V Vektorräume über einem Körper K. Ein Homomorphismus f : U → V ,
also eine Abbildung, bei der für alle u1 , u2 ∈ U und λ ∈ K gilt
Additivität:
f (u1 + u2 ) = f (u1 ) + f (u2 )
Homogenität:
f (λ · u1 ) = λ · f (u1 )
(12)
heißt lineare Abbildung:
Def inition 6.1 (Lineare Abbildung). Seien U und V Vektorräume über einem Körper K. Eine lineare Abbildung ist ein Homomorphismus f : U → V . Die Menge aller
linearen Abbildungen von U nach V bezeichnen wir mit
Lin(U, V ) := {f : U → V | f ist Homomorphismus } .
(13)
Die Eigenschaften (12) einer linearen Abbildung lassen sich zu einer Gleichung
zusammenfassen. Eine Funktion f : U → V ist genau dann eine lineare Abbildung,
wenn für u1 , u2 ∈ U und λ1 , λ2 ∈ K gilt:
f (λ1 u1 + λ2 u2 ) = λ1 · f (u1 ) + λ2 · f (u2 ).
Man überlegt sich leicht, dass mit f, g ∈ Lin(U, V ) auch h := f + g mit h(u) =
f (u) + g(u) eine lineare Abbildung ist, ebenso k := λf mit k(u) = λ · f (u) für λ ∈ K.
Die Menge der linearen Abbildungen Lin(U, V ) ist bezüglich Addition und skalarer
Multiplikation abgeschlossen:
Satz 6.2. Seien U und V Vektorräume über einem Körper K. Dann ist Lin(U, V )
zusammen mit der oben angegebenen Addition und skalaren Multiplikation ein KVektorraum.
63
64
6. Lineare Abbildungen
Die Hintereinanderausführung (Konkatenation) h := f ◦g ∈ Lin(U, W ) mit h(u) =
f (g(u)) zwei linearer Abbildungen f ∈ Lin(V, W ) und g ∈ Lin(U, V ) ist ebenfalls eine
lineare Abbildung. Denn für u1 , u2 ∈ U , λ1 , λ2 ∈ K und v1 := g(u1 ), v2 := g(u2 ) gilt:
h(λ1 u1 + λ2 u2 ) = f g(λ1 u1 + λ2 u2 )
= f λ1 · g(u1 ) + λ2 · g(u2 )
= f λ1 v1 + λ2 v2
= λ1 · f (v1 ) + λ2 · f (v2 )
= λ1 · f (g(u1 )) + λ2 · f (g(v2 ))
= λ1 · h(u1 ) + λ2 · h(u2 ).
Beschränken wir uns auf den Fall U = V = W , also Endomorphismen, so ist die Menge
der linearen Abbildungen mit den beiden Verknüpfungen Addition und Konkatenation
ein Unterring aller Abbildungen f : U → U :
Satz 6.3. Sei K ein Körper und U ein K-Vektorraum. Die Menge aller linearen
Abbildungen Lin(U, U ) mit Addition +“ und Konkatenation ◦“ ist ein Ring.
”
”
Wie bei Abbildungen üblich bezeichnet man mit bild f den Bildbereich der Funktion f ∈ Lin(U, V ):
bild f := f (U ) = {f (u) | u ∈ U } ⊆ V.
bild f ist ein Untervektorraum von V . Der Kern ker f der Abbildung f ∈ Lin(U, V )
umfasst die Vektoren u ∈ U , welche auf die Null abgebildet werden:
ker f := f −1 (0) = {u ∈ U | f (u) = 0 } ⊆ U.
ker f ist ein Untervektorraum von U Aufgrund der Linearität ist f (0) = 0, so dass
der Nullvektor stets im Kern einer linearen Abbildung liegt. Bei einem trivalen Kern,
d.h. ker f = {0}, ist die Abbildung injektiv. Ein surjektive Abbildung f hat genau
dann trivalen Kern, wenn f ein Isomorphismus ist. Für die Dimension der beiden Untervektorräume ker f und bild f einer linearen Abbildung f ∈ Lin(U, V ) gilt folgende
Relation, die wir in Übungsaufgabe 8.1 beweisen:
Satz 6.4 (Dimensionsformel für lineare Abbildungen). Seien U und V Vektorräume
über einem Körper K sowie f ∈ Lin(U, V ) eine lineare Abbildung. Dann gilt:
dim(ker f ) + dim(bild f ) = dim U.
Der folgende Satz trifft auch auf unendlich dimensionale Vektorräume zu, wenngleich wir uns im Beweis auf den in der Vorlesung betrachteten Fall von Vektorräumen
endlicher Dimension beschränken.
Satz 6.5. Seien U und V Vektorräume über einem Körper K und a1 , . . . , an eine
Basis von U . Eine lineare Abildung f ∈ Lin(U, V ) ist genau dann ein Isomorphismus,
wenn die Bilder f (a1 ), . . . , f (an ) der Basisvektoren von U eine Basis von V bilden.
Beweis. Wir zeigen beide Richtungen. Sei f ein Isomorphismus. Es gilt:
span {f (a1 ), . . . , f (an )} ⊆ bild f ⊆ V.
(14)
2. Darstellende Matrix
65
Da f bijektiv ist, existiert zu jedem v ∈ V ein Vektor
u :=
n
X
λi ai ∈ U
mit
v = f (u) = f
i=1
n
X
λi ai
!
=
i=1
n
X
λi f (ai ).
i=1
In Verbindung mit den Inklusionen (14) gilt
V = span {f (a1 ), . . . , f (an )} ⊆ bild f ⊆ V.
Da V die Dimension n hat, bilden f (a1 ), . . . , f (an ) eine Basis von V .
Umgekehrt, sei f (a1 ), . . . , f (an ) eine Basis von V . Dann ist dim U = dim V . Aus
V = span {f (a1 ), . . . , f (an )} ⊆ bild f ⊆ V
folgt dim(bild f ) = dim V = dim U , d.h. f ist surjektiv. Nach Übungsaufgabe 8.1 ist
f ein Isomorphismus.
Die Dimension des Bildbereiches nennt man den Rang einer linearen Abbildung:
Def inition 6.6 (Rang einer Abbildung). Seien U und V Vektorräume über einem
Körper K und f : U → V eine lineare Abbildung. Dann heißt rang f := dim(bild f )
der Rang von f .
Den Begriff Rang“ haben wir zuvor in Kapitel 5 für Matrizen defininert. Wie
”
wir in Abschnitt 2 in diesem Kapitel und Übungsaufgabe 8.2 zeigen werden, kann
jeder Abbildung f ∈ Lin(U, V ) eine eindeutig bestimmte Matrix F mit f (x) = F x
zugeordnet werden, wobei der Rang der Abbildung f mit dem Rang der Matrix F
übereinstimmt.
Um eine lineare Abbildung f : U → V anzugeben, genügt es, die Bilder der
Basisvektoren von U zu spezifizieren.
Sei a1 , . . . , an eine Basis des Vektorraums U .
P
Für das Bild eines Vektors u = ni=1 λi ai ∈ U erhalten wir aus den HomomorphieEigenschaften der linearen Abbildung:
!
n
n
n
X
X
X
f (u) = f
λi ai =
f (λi ai ) =
λi f (ai ).
i=1
i=1
i=1
Umgekehrt sind zwei lineare Abbildungen f, g : U → V genau dann identisch, wenn
die Bilder der Basisvektoren jeweils übereinstimmen.
Wir zeigen in diesem Abschnitt, dass man zu einen Körper K die Menge der Matrizen
Mm,n (K) als die Menge der linearen Abbildungen Lin(Kn , Km ) interpretieren kann.
Zu einer Matrix A ∈ Mm,n (K) ist durch x 7→ Ax eine lineare Abbildung gegeben,
denn es gilt A(x + y) = Ax + Ay und A(λx) = λAx für x, y ∈ Kn und λ ∈ K:
Lemma 6.7. Sei K ein Körper. Dann ist zu jeder Matrix A ∈ Mm,n (K) die Funktion
φA : Kn → Km ,
eine lineare Abbildung.
x 7→ Ax
66
Umgekehrt kann jede lineare Abbildung f : Kn → Km durch eine eindeutig bestimmte Matrix F ∈ Mm,n (K) beschrieben werden, also f (x) = F x. Diese Matrix F
wollen wir im folgenden herleiten. Seien e1 , . . . , en die kanonischen Einheitsvektoren.
Die Abbildung
f ist eindeutig durch die Bilder der Einheitsvektoren gegeben, denn
P
für x = ni=1 xi ei gilt:
!
n
n
n
X
X
X
f (x) = f
xi ei =
f (xi ei ) =
xi · f (ei ).
i=1
i=1
i=1
Um diese Darstellung in Matrix-Vektor-Schreibweise f (x) = F x zu formulieren, wähle
als Spalten die Bilder der Einheitsvektoren:
F := f (e1 ) f (e2 ) · · · f (en ) ∈ Mm,n (K).
P
Bezeichnen wir die Spaltenvektoren mit fi := f (ei ), gilt für x = ni=1 xi ei ∈ Kn :
!
n
n
n
X
X
X
Fx =
xi fi =
xi f (ei ) = f
xi ei = f (x)
i=1
i=1
i=1
Diese Konstruktion fassen wir mit folgendem Merksatz zusammen:
Die Spalten sind die Bilder der Einheitsvektoren.
Zwei lineare Abbildungen genau dann überein, wenn die Bilder der Einheitsvektoren
identisch sind. Weil diese die Spaltenvektoren sind, ist die Matrix zu einer linearen
Abbildung eindeutig bestimmt.
Korollar 6.8. Sei K ein Körper. Die K-Vektorräume Lin(Kn , Km ) und Mm,n (K)
sind isomorph.
Beweis. Wir zeigen, dass die Abbildung
ϕ : Lin(Kn , Km ) → Mm,n (K),
f 7→ f (ei ) 1≤i≤n ∈ Mm,n (K)
ein Isomorphismus ist. Die Abbildung ϕ ist injektiv, denn gilt ϕ(f ) = ϕ(g) für f, g ∈
Lin(Kn , Kn ), so stimmen beide Funktionen g, f auf den Einheitsvektoren (einer Basis
des Kn ) überein, und sind identisch. Die Funktion ϕ ist ebenfalls surjektiv, denn
gemäß Lemma 6.7 ist durch eine Matrix F ∈ Mn,n (K) eine lineare Abbildung f :
x 7→ F x mit ϕ(f ) = F gegeben. Zu zeigen bleibt die Linearität der Funktion ϕ. Für
f, g ∈ Lin(Kn , Km ) und λ, µ ∈ K gilt
ϕ(λf + µg) = λ · f (ei ) + µ · g(ei ) 1≤i≤n
= λ · f (ei ) 1≤i≤n + µ · g(ei ) 1≤i≤n
= λ · ϕ(f ) + µ · ϕ(g).
Die Abbildung ϕ : Lin(Kn , Km ) → Mm,n (K) ist somit ein Isomorphismus.
In Satz 6.3 haben wir gezeigt, dass die Menge der linearen Abbildungen Lin(Kn , Kn )
mit Addition und Komposition einen Ring bildet. Dieser ist isomorph zum Ring
der n × n Matrizen, wobei die Hintereinanderausführung f ◦ g zweier Abbildungen
f, g ∈ Lin(Kn , Kn ) dem Produkt F · G der zugehörigen Matrizen entspricht:
67
Korollar 6.9. Sei K ein Körper. Die Ringe (Lin(Kn , Kn ), +, ◦) und (Mn,n (K), +, ·)
sind isomorph.
Beweis. Wir betrachten die Abbildung
ϕ : Lin(Kn , Kn ) → Mn,n (K),
f 7→ F := f (ei ) 1≤i≤n ∈ Mn,n (K)
Aus dem Beweis zu Satz 6.8 wissen wir bereits, dass die Abbildung ϕ eine Bijektion
darstellt. Ferner ist die Funktion additiv, d.h. für f, g ∈ Mn,n (K) gilt ϕ(f + g) =
ϕ(f ) + ϕ(g). Zu zeigen bleibt, dass sie auch verträglich mit der Konkatenation bzw.
Multiplikation ist:
ϕ(f ◦ g) = ϕ(f ) · ϕ(g) = F · G
Seien F = (fi,j )1≤i,j≤n = ϕ(f ) und G = (gi,j )1≤i,j≤n = ϕ(g). Es genügt zu zeigen,
dass der i-te Spaltenvektor des Matrixprodukts F G gleich dem Bild (f ◦ g)(ei ) ist.
Wegen fi,j = (f (ej ))i und gi,j = (g(ej ))i folgt aus der Linearität der Abbildungen
f, g:
!
n
n
n
X
X
X
gi,ν · eν =
gν,i f (eν ) =
f (eν ) · gν,i
(f ◦ g)(ei ) = f (g(ei )) = f
ν=1
ν=1
ν=1
Der Vektor f (eν ) ist der ν-te Spaltenvektor (fj,ν )1≤j≤n von F so dass gilt:

 Pn
ν=1 f1,ν gν,i
P
 n f2,ν gν,i 

 ν=1
(f ◦ g)(ei ) = 
.
..


Pn .
f
g
ν=1 n,ν ν,i
Das Bild (f ◦g)(ei ) stimmt mit der i-ten Spalte der Matrix F G überein, also ϕ(f ◦g) =
F G.
Wir haben uns auf die linaren Funktionen Lin(Kn , Kn ) (auf quadatische Matrizen)
beschränkt, damit die Konkatenation (das Matrixprodukt) definiert ist. Man rechnet
leicht nach, dass allgemein für f ∈ Lin(Km , Kr ) und g ∈ Lin(Kn , Km ) gilt:
ϕ(f ◦ g) =
| {z }
∈Mr,n (K)
ϕ(f )
| {z }
·
ϕ(g)
|{z}
∈Mr,m (K) ∈Mm,n (K)
In anderen Fällen ist weder die Konkatenation der Funktionen f, g noch das Produkt
der Matrizen definiert.
Wir haben zuvor nur lineare Abbildungen der Form f : Kn → Km betrachtet.
Seien U, V zwei K-Vektorräume, A = {a1 , . . . , an } eine geordnete Basis von U und
B = {b1 , . . . , bm } eine geordnete Basis von V . Den Fall einer Abbildung f ∈ Lin(U, V )
für zwei beliebige Vektorräume reduziert man mittels der Koordinatenfunktion zu den
Basen A und B
Aλ 7→ (λ1 , λ2 , . . . , λn )
Bµ 7→ (µ1 , µ2 , . . . , µm )
68
auf eine Abbildung der Form Kn → Km mit den kanonischen Einheitsvektoren als Basen. Die Matrix MA,B (f ) einer linearen Funktion f ∈ Lin(U, V ) bezüglich gegebener
Basen A, B von U und V beschreibt die Abbildung der Koordinatenvektoren:
Def inition 6.10 (Darstellungsmatrix einer linearen Abbildung). Seien U, V Vektorräume über einem Körper K, sowie A = {a1 , . . . , an } eine geordnete Basis von U
und B = {b1 , . . . , bm } eine geordnete Basis von V . Die Darstellungsmatrix
MA,B (f ) := (fij ) 1≤i≤m ∈ Mm,n (K)
1≤j≤n
einer linearen Abbildung f ∈ Lin(U, V ) bezüglich der Basen A, B ist erklärt durch
f (ai ) =
n
X
fj,i bj
für i = 1, . . . , m.
j=1
Die i-te Spalte von MA,B (f ) ist der Koordinatenvektor von f (ai ) zur Basis B.
Die Hintereinanderausführung zwei linearer Funktionen g : U → V und f : V →
W für Vektorräume U, V, W mit Basen A, B, C bedeutet, dass man die darstellenden
Matrizen multipliziert. Die darstellende Matrix FA,B einer linearen Funktion f : U →
V hängt von den gewählten Basen A, B der Vektorräume U und V ab. Sei A0 eine
weitere Basis von U . Der Basiswechsel, der Übergang von der Basis A0 zur Basis
A des Vektorraums U wird durch den Isomorphismus bzw. die darstellende Matrix
TA0 ,A beschrieben. Die beschreibende Matrix FA0 ,B der Abbildung f zu den Basen
A0 , B lautet
MA0 ,B (f ) = MA,B (f ) · TA0 ,A .
Wählt man statt B eine andere Basis B 0 des Vektorraums V und sei TB0 ,B die darstellende Matrix dieses Basiswechsels, so ist die beschreibende Matrix FA0 ,B0 zu den
Basen A0 , B 0 gegeben als das Matrixprodukt
MA0 ,B0 (f ) = TB−1
0 ,B · MA,B (f ) · TA0 ,A .
(15)
Diese Identität nennt man Transformationsformel für darstellende Matrizen.
Beispiel 6.11. Wir betrachten einen Endomorphismus f des Vektorraums K[X]2
der Polynome mit Grad maximal 2 über einem beliebigen Körper K. Seien A =
{a1 , a2 , a3 } und B = {b1 , b2 , b3 } geordnete Basen, bestehend aus den Polynomen:
a1 (X) = 1 + X + X 2
b1 (X) = X + X 2
a2 (X) = 1 + X
b2 (X) = −1 + X
a3 (X) = −1
b3 (X) = X 2 .
Die Abbildung f ist gegeben durch die Bilder der Basisvektoren:
f (a1 ) := b1 − b3
f (a2 ) := b3
f (a3 ) := b1 + b2 − b3 .
69
Aus dieser Definition der Funktion f läßt sich unmittelbar die darstellende Matrix
MA,B (f ) bezüglich der Basen A, B herleiten, denn der i-te Spaltenvektor ist der Koordinatenvektor von f (ai ) zur Basis B:


+1 0 +1
0 +1
MA,B (f ) =  0
−1 +1 −1
Wir führen einen Basiswechsel durch und ersetzen die Basis A durch die Basis A0 :=
{a01 , a02 , a03 }, bestehend aus den Polynomen:
a01 (X) = 1
a02 (X) = X
a03 (X) = X 2
Um die darstellende Matrix MA0 ,B (f ) der Funktion f zu berechnen, bestimmen wir
zuerst die Transformationsmatrix TA0 ,A . Wegen
a01 (X) = −a3 (X)
a02 (X) = a2 (X) + a3 (X)
a03 (X) = a1 (X) − a2 (X)
lautet die Transformationsmatrix
TA0 ,A


0
0 +1
=  0 +1 −1
−1 +1 0
und die darstellende Matrix MA0 ,B (f ) = MA,B (f ) · TA0 ,A :

 
 

+1 0 +1
0
0 +1
−1 +1 +1
0 +1 ·  0 +1 −1 = −1 +1 0  .
MA0 ,B (f ) =  0
−1 +1 −1
−1 +1 0
+1 0 −2
Wir wollen unsere Rechnung überprüfen. Man überzeuge sich durch Nachrechnen,
dass für die Funktion f gilt
!
f (1) = B(MA0 ,B (f ) · e1 ) = −b1 − b2 + b3
!
f (X) = B(MA0 ,B (f ) · e2 ) = b1 + b2
!
f (X 2 ) = B(MA0 ,B (f ) · e3 ) = b1 − 2b3
wobei e1 , e2 , e3 die kanonischen Einheitsvektoren sind.
Kapitel 7
Lineare Codes
Ein wichtiges Teilgebiet der Kodierungstheorie, in der Vektorräume eine wichtige Rolle
spielen, sind lineare Codes.
1. Grundbegriffe
Eine Nachricht soll von einem Sender über einen Kanal an einen Empfänger übermittelt werden. Dabei handelt es sich um einen gestörten Übertragungskanal, d.h.
die Nachricht kann fehlerhaft übertragen werden. Ziel ist es, dass der Empfänger
die korrekte Nachricht dennoch erhält. Dazu wird die Nachricht kodiert, man fügt
zusätzliche (redundante) Informationen hinzu. Statt der Nachricht überträgt man
das zugehörige Codewort. Auch wenn bei der Übermittlung Fehler auftreten, kann
der Empfänger mit Hilfe der im Codewort enthaltenen zusätzlichen Informationen die
eigentliche Mitteilung bestimmen.
gestörte
evtl. gestörtes
empfangene
Nachricht Kodierung Codewort Übertragung
Codewort
Dekodierung Nachricht
m
7→
c
−−−−−−→
Kanal
c̃
7→
m
An den Code werden dabei bestimmte Anforderungen gestellt:
• Es sollen möglichst viele Fehler (Störungen) korrigiert werden können.
• Die Codeworte sollen im Vergleich zu den Nachrichten nur unwesentlich
länger sein.
• Kodierung und Dekodierung sollen effizient durchzuführen sein.
In der Praxis finden sich zahlreiche Anwendungen fehlerkorrigierender Codes, beispielsweise die Datenübertragung von Raumsonden zur Erde oder die Datenfernübermittlung mittels Modem. Auch in der Unterhaltungselektronik werden fehlerkorrigierende Codes verwendet: Die Daten auf CDs (Compact Discs) sind kodiert, damit der
CD-Player kleinere Beschädigungen der CD ausgleichen kann.
71
72
7. Lineare Codes
Wir beschäftigen uns in diesem Abschnitt mit einer wichtigen Klasse von Codes,
den linearen Codes. Ein linearer Code ist ein Untervektorraum über einem endlichen
Körper:
Def inition 7.1 ([n, k]-Code). Sei K ein endlicher Körper. Ein K-Vektorraum C ⊆
Kn der Dimension k heißt [n, k]-Code über K. Im Fall K = F2 = {0, 1} sprechen wir
von einem binären, linearen Code.
Um Nachrichten mit Hilfe linearer Codes zu kodieren, wählen wir als Nachrichtenmenge den Vektorraum Kk der Worte der Länge k über dem Alphabet“ des Körpers
”
K und verwenden eine injektive Abbildung c : Kk → C, die jeder Nachricht eindeutig
ein Codewort eines [n, k]-Codes C ⊆ Kn zuweist.1 Die Dekodierung erfolgt mit der
Minimal-Distanz-Dekodierung (auch Maximum-Likelihood-Dekodierung). Man ordnet
dem übertragenen Codewort dasjenige Codewort zu, das ihm am ähnlichsten“ ist,
”
d.h. welches den kleinsten Abstand zu ihm hat. Den Abstand zweier Codewörter
wird mit der Hamming-Distanz 2 genannten Metrik (zur Definition einer Metrik siehe
Kapitel 11, Definition 11.4 auf Seite 118; man rechnet leicht nach, dass die HammingDistanz die dort angegebenen Eigenschaften erfüllt) gemessen:
Def inition 7.2 (Hamming-Distanz). Seien x, y ∈ Kn . Dann heißt
d(x, y) := | {i | xi 6= yi } |
Hamming-Distanz (auch Hamming-Abstand) von x und y.
Die Hamming-Distanz ist die Anzahl der Komponenten, in denen sich zwei Vektoren unterscheiden. Die Minimal-Distanz-Dekodierung erfolgt in zwei Schritten:
(1) Bestimme zu c̃ das Codewort c ∈ C mit minimalem Hamming-Abstand
d(c̃, c).
(2) Bestimme die dem Codewort c zugeordnete Nachricht m0 .
Für lineare Codes genügt es, die Distanz zum Nullvektor zu betrachten:
Def inition 7.3 (Hamming-Gewicht). Sei x ∈ Kn . Wir nennen
w(x) := d(x, 0) = | {i | xi 6= 0 } |
das Hamming-Gewicht von x.
Je größer der Abstand der Codeworte voneinander ist, desto mehr Fehler kann
man korrigieren. Eine wichtige Größe für lineare Codes ist deren Minimalabstand :
Def inition 7.4 (Minimalabstand). Sei C ein [n, k]-Code. Dann bezeichnen wir
d(C) := min {d(x, y) | x, y ∈ C, x 6= y }
als den Minimalabstand von C. Für C = {0} setzen wir d({0}) = min ∅ = ∞.
Um zu kennzeichnen, dass ein [n, k]-Code Minimalabstand d hat, spricht man auch
von einem [n, k, d]-Code.
1Wir haben die Menge C der Codeworte als Code bezeichnet. Teilweise in der Literatur und
nach DIN 44300 wird die eindeutige Zuordnung c : Kk → C als Code definiert.
2
Richard W. Hamming, einer der Gründerväter der Kodierungstheorie. Bell Laboratories, 1948.
1. Grundbegriffe
73
Def inition 7.5 (Minimalgewicht). Sei C ein [n, k]-Code. Dann heißt
w(C) := min {w(x) | x ∈ C \ {0} }
das Minimalgewicht von C. Für C = {0} setzen wir w({0}) = min ∅ = ∞.
Für lineare Codes stimmt das Minimalgewicht mit dem Minimalabstand überein:
Lemma 7.6. Sei C ⊆ Kn linearer Code. Dann gilt d(C) = w(C).
Beweis. Sei C ⊆ Kn ein [n, k]-Code und x, y ∈ C. Für C = {0} folgt die Gleichheit trivialerweise. Für C 6= {0} ist der Abstand zwischen x und y die Anzahl der
Komponenten, in denen sich die beiden unterscheiden. Genau für diese Komponenten
ist aber auch die Differenz x − y von 0 verschieden. Damit gilt d(x, y) = w(x − y).
Da wir bereits mit y = 0 ∈ C und x ∈ C alle Elemente von C erhalten, folgt die
Behauptung.
Bei einem Übertragungsfehler werden Komponenten des Codewortes c ∈ C verändert
(Wir setzen zur Vereinfachung voraus, dass stets n Zeichen empfangen werden). Bezogen auf das empfangene Codewort bedeutet das c̃ = c + e mit einem Fehlervektor
e ∈ Kn .
Def inition 7.7 (t-fehlererkennend, t-fehlerkorrigierend). Ein linearer Code C heißt
t-fehlererkennend, wenn die Minimal-Distanz-Dekodierung bis zu t fehlerhafte Komponenten in den gestörten Codewörtern erkennt. Ein linearer Code C heißt t-fehlerkorrigierend, wenn die Minimal-Distanz-Dekodierung bis zu t fehlerhafte Komponenten
in den gestörten Codewörtern korrigiert.
Wir veranschaulichen uns die Situation: Stellt man sich die Codewörter als Punkte
im Raum Kn vor, so bilden diejenigen gestörten Codewörter (die Elemente des Kn ),
welche die Minimal-Distanz-Dekodierung einem Codewort zuordnet, eine Kugel um
dieses Codewort.
Def inition 7.8 (Kugel). Sei C ⊆ Kn linearer Code. Dann nennen wir für c ∈ C
Bt (c) := {x ∈ Kn | d(x, c) ≤ t }
eine Kugel um c mit Hamming-Radius t.
'$
'$
'$
'$
p
p
p
p
'$
'$
'$
'$
&%
&%
&%
&%
t
p
p
p
p
c
&%
&%
&%
&%
Alle Vektoren bzw. gestörten Codewörter innerhalb einer Kugel werden bei der
Minimal-Distanz-Dekodierung dem Codewort im Mittelpunkt der Kugel zugeordnet.
Es gibt Codes, die mehr Fehler erkennnen als korrigieren können, denn falls die Kugeln
nämlich nicht disjunkt sind, sondern an ihrem Rand“ gemeinsame Punkte haben,
”
sind diese zwar keine gültigen Codeworte, können aber auch nicht eindeutig einem
gültigen Codewort zugeordnet werden (denn die Mittelpunkte der beiden Kugeln sind
gleichweit entfernt). Aus obigen Betrachtungen folgt direkt
74
7. Lineare Codes
Korollar 7.9. Ein linearer Code C ⊆ Kn ist genau dann t-fehlerkorrigierend, wenn
d(C) ≥ 2t + 1.
Wir präzisieren die Vorstellung davon, wieviel Nachricht“ und wieviel Korrek”
”
turinformationen“ die Codewörter eines linearen Codes enthalten. Ein [n, k]-Code ist
ein k-dimensionaler Untervektorraum eines n-dimensionalen Vektorraums über einem
endlichen Körper K. Die Codewörter haben die Länge n, die Anzahl frei wählbarer
Komponenten in den Codewörtern ist k. Wir haben also k Komponenten für die Informationen zur Verfügung und senden n Komponenten pro Codewort. Im Fall von
binären Codes nennen wir k die Anzahl der Informationsbits und n−k die Anzahl der
Korrekturbits. Informationsrate und Korrekturrate eines binären linearen Codes sind
die Verhältnisse von Informationsbits bzw. Korrekturbits zur Länge der Codewörter:
Def inition 7.10 (Informations- und Korrekturrate). Sei C ein binärer [n, k]-Code.
Dann heißt
k
Anzahl Informationsbits
=
n
Bitlänge
die Informationsrate von C und
l
m
d(C)−1
2
n
=
Anzahl Korrekturbits
Bitlänge
die Korrekturrate von C.
Bis auf die schnelle Kodierung und Dekodierung können wir unsere Anforderungen
vom Anfang des Kapitels an einen guten Code beschreiben:
Def inition 7.11 (Guter Code). Eine Folge (Ci )n∈N von binären [ni , ki ]-Codes Ci
heißt gut, wenn
lim
i→∞
ki
> 0,
ni
lim
i→∞
d(Ci )
> 0,
ni
lim ni = ∞.
i→∞
Eine Folge binärer linearer Codes heißt gut, wenn Informationsrate und Korrekturrate bei steigender Bitlänge positiv bleiben.
Beispiel 7.12. Um die Begriffe zu verdeutlichen und anzuwenden, betrachten wir
zwei konkrete binäre lineare Codes.
• Beim t-fachen Wiederholungscode wird jede Nachricht t-mal hintereinander
verschickt:




k
C := (x, x, . . . , x) ∈ Fkt
x
∈
F
.
2 2
 | {z }

t-mal
Die Nachrichten sind Vektoren aus Fk2 , haben also die Länge k und die Codewörter sind Vektoren über F2 der Länge n = kt für ein festes t ≥ 1.
Der t-fachen Wiederholungscode C ist ein [kt, k]-Code mit Minimalgewicht
1. Grundbegriffe
75
d(C) = t. Wir bestimmen die Informationsrate und die Korrekturrate von
C:
Informationsrate =
k
1
=
kt
t
Korrekturrate =
d t−1
2 e
.
kt
Die Folge t-facher Wiederholungscodes stellt keinen guten Code dar, denn
d t−1 e
lim Informationsrate · Korrekturrate = lim 22 = 0.
k→∞
k→∞ t k
• Der binärer Code mit einem Paritätsbit beruht auf der Idee, die Nachricht um
ein Prüfbit zu erweitern, derart, dass die Summe der Komponenten modulo
2 sets 0 ist:
(
)
n
X
C := (x1 , . . . , xn ) ∈ Fn2 xi = 0 (mod 2) .
i=1
Die Dimension von C ist um eins kleiner als die Länge dera Codewörter,
denn ein Bit wird als Prüfbit verwendet. Der Paritätscode C läßt sich als
Lösungsraum eines homogenen linearen Gleichungssystems über F2 auffassen
C = Lös(eT , 0)
mit eT = (1, 1, . . . , 1) ∈ M1,n (F2 ),
denn in F2 gilt eT (x1 , . . . , xn )T =
auf Seite 62 folgt
Pn
i=1 xi .
Mit rang(eT ) = 1 und Satz 5.7
dim(C) = n − rang(eT ) = n − 1.
Wir bestimmen das Minimalgewicht des Paritätscodes C. Da der Nullvektor bei der Bestimmung des Minimalgewichts nicht berücksichtigt wird und
Vektoren mit nur einer von Null verschiedenen Komponente nicht zum Code
gehören, gilt:
d(C) = min w(c) = w((1, 1, 0, . . . , 0)) = 2.
c∈C
Wir berechnen die Informationsrate und die Korrekturrate von C:
Informationsrate =
1
n−1
=1−
n
n
Korrekturrate =
d 2−1
1
2 e
= .
n
n
Die Folge der Paritätsbit-Codes ist ebenfalls kein guter Code, denn:
n−1
lim Informationsrate · Korrekturrate = lim
= 0.
n→∞
n→∞ n2
Es gibt Folgen von guten Codes, zum Beispiel Justesen-Codes und Turbo-Codes.
Diese beruhen auf endlichen Körpern K mit q m Elementen, q prim, insbesondere
auf Körpern mit 2m Elementen. Die Konstruktion und Beweise gehen aber über den
Rahmen der dieser Vorlesung hinaus [Lint98].
76
7. Lineare Codes
2. Gitter und Kugelpackungen
Die Konstruktion von binären [n, k]-Codes mit möglichst großem Minimalgewicht
bei gegebenem (n, k) hängt mit dem Problem der dichtesten Kugelpackungen im Rn
zusammen. Der Zusammenhang ergibt sich dabei unmittelbar aus den vorherigen
Überlegungen. Da wir mit linearen Codes arbeiten, interessieren wir uns primär für
diejenigen Kugelpackungen, die linearen Codes entsprechen. Es sind dies die sogenannten gitterartigen Kugelpackungen.
Um den intuitiven Begriff eines Gitters zu formalisieren, stellen wir uns vor, dass
wir ein Gitter über den n-dimensionalen Raum Rn legen und davon nur die Kreu”
zungspunkte“ betrachten. Diese erhalten wir als die ganzzahligen Linearkombinationen einer Basis:
Def inition 7.13 (Volldimensionales Gitter). Sei B := {b1 , . . . , bn } ⊂ Rn eine geordnete Basis des Rn . Dann heißt
)
( n
X
L(b1 , . . . , bn ) :=
t i b i ti ∈ Z ⊂ R n
i=1
ein volldimensionales Gitter mit Gitterbasis B.
Ein Gitter L ⊂ Rn ist eine additive Untergruppe des Rn , die keinen Häufungspunkt hat (diskret ist). Wir gehen auf Gitter in Kapitel 16 ab Seite 201 näher ein.
Beispiel 7.14. Ein einfaches Beispiel für ein Gitter im Rn ist Zn mit der Gitterbasis
e1 , . . . , en .
Def inition 7.15 (Gitterartige Kugelpackung). Eine Kugelpackung des Rn heißt gitterartig, wenn die Kugelmittelpunkte ein Gitter bilden.
Unter der Packungsdichte: einer gitterartigen Kugelpackung verstehen wir den
Anteil der Kugelvolumen am gesamten Raum. Je höher die Packungsdichte einer
gitterartigen Kugelpackung ist, desto größer sind die Abstände zwischen den Codeworten des entsprechenden linearen Codes. Wir nutzen diese Entsprechung, um diejenigen linearen Codes auszuzeichnen, die optimalen, d.h. dichtesten Kugelpackungen
entsprechen
Def inition 7.16 (t-perfekter Code). Ein linearer Code C ⊆ Kn heißt t-perfekt, wenn
die Kugeln Bt (c) zu c ∈ C eine Zerlegung (Partition) des Kn bilden:
[
a) Die Kugeln bedecken den gesamten Raum:
Bt (c) = Kn .
c∈C
b) Die Kugeln sind disjunkt: Bt (c) ∩ Bt (c0 ) = ∅ für c, c0 ∈ C mit c 6= c0 .
Für kleine n kennt man optimale, d.h. dichteste gitterartige Kugelpackungen des Rn
[CS93]. Wir betrachten einige Beispiele:
• R1 : Die reelle Zahlengerade ist einfach optimal aufzuteilen. Die Kugeln sind
dabei die reellen Intervalle von der Größe der Länge des Gitterbasisvektors:
3. Generator- und PCH-Matrix
77
Da jede Zahl einem Intervall zugeordnet ist, beträgt die Packungsdichte 1.
• R2 : Auch in der reellen Ebene entspricht die optimale Aufteilung der Vorstellung. Wir packen die Kreise möglichst dicht zusammen:
'$
'$
'$
'$
p
p
p
p
'$
'$
'$
'$
&%
&%
&%
&%
p
p
p
p
&%
&%
&%
&%
Dabei gilt:
Fläche der Halbkugel mit Radius 12
Fläche des gleichseitigen Dreiecks mit Kantenlänge 1
1 1 2
( ) π
π
= 2 1 2√ = √ ≈ 0, 9069.
2 3
4 3
Packungsdichte =
• R3 : Mit der gleichen Idee wie im R1 und R2 werden die Kugeln im reellen
Raum zu einer Apfelsinen-Gitter-Packung“ angeordnet. Die Packungsdichte
”
π
beträgt 3√
.
2
• R8 : Im R8 ist die maximale Packungsdichte 2−4 .
Die angegebenen Packungsdichten sind jeweils maximal für gitterartige Kugelpackungen des R1 , R2 , R3 und R8 . Innerhalb der Fragestellung der maximalen Packungsdichten im Rn gibt es noch ungelöste Probleme:
• Maximale Packungsdichte von gitterartigen Kugelpackungen im Rn für n >
8.
• Maximale Packungdichte für beliebige Kugelpackungen im Rn für n > 2.
Dabei müssen die Kugeln den gleichen Radius haben. Für n = 3 nennt man
dies das Problem von Kepler3.
Da ein linearer Code ein Untervektorraum ist, kann man ihn durch eine Basis eindeutig charakterisieren. Für lineare Codes faßt man die Basisvektoren in einer Matrix
zusammen. In der Kodierungstheorie betrachtet man üblicherweise Zeilenvektoren:
Def inition 7.17 (Generatormatrix). Sei C ⊆ Kn ein [n, k]-Code und g1 , . . . , gk ∈ Kn
eine Basis von C. Dann heißt
 T
g1
 .. 
G :=  .  ∈ Mk,n (K)
gkT
Generatormatrix (auch Basismatrix) zu C.
3Johannes Kepler, 1571-1630 war ein berühmter Astronom und Mathematiker. Sein Hauptbeschäftigungsgebiet waren die Planetenbewegungen.
78
7. Lineare Codes
Man kann einen [n, k]-Code C ⊆ Kn durch seine Generatormatrix angeben. Da
jedes Codewort eine Linearkombination über K der Basisvektoren von C ist, gilt für
die Generatormatrix von C
n
o n
o
C = GT u u ∈ Kk = (uT G)T u ∈ Kk .
Für den Rn kennen wir den Begriff der Orthogonalität. Er besagt, dass zwei Vektoren
x, y ∈ Rn senkrecht aufeinander stehen, wenn xT y = 0:
x ⊥ y ⇐⇒ xT y = xy T = 0.
Wir können diesen Begriff auf beliebige Vektorräume übertragen, dabei verliert er
jedoch die geometrische Bedeutung des senkrecht Aufeinanderstehens“: So sind im
”
Fn2 alle Vektoren mit einer geraden Anzahl von Einsern orthogonal zu sich selbst.
Wir definieren zu einem gegebenen Untervektorraum U ⊆ Kn den dazugehörigen
Orthogonalraum als den Untervektorraum derjenigen Vektoren, die orthogonal zu
allen Vektoren aus U stehen:
Def inition 7.18 (Orthogonalraum). Sei U ⊆ Kn ein K-Vektorraum. Dann ist
U ⊥ := v ∈ Kn uT v = 0 für alle u ∈ U
der Orthogonalraum zu U .
Zu linearen Codes nennen wir den Orthogonalraum dualen Code:
Def inition 7.19 (Dualer Code). Sei C ⊆ Kn ein [n, k]-Code. Dann heißt
C ⊥ := u ∈ Kn cT u = 0 für alle c ∈ C
der duale Code zu C.
Der duale Code ist zu einem [n, k]-Code C ist ein linearer Code der Dimension n − k,
denn ist G Generatormatrix zu C, dann gilt:
dim C ⊥ = dim Lös(G, 0) = n − rang G = n − dim C = n − k.
Satz 7.20. Sei C ⊆ Kn ein [n, k]-Code. Dann ist C ⊥ ein [n, n − k]-Code.
Die Dimensionen eines linearen Codes und seines dualen Codes addieren sich zur
Dimension des umgebenden Raumes auf:
dim C + dim C ⊥ = k + n − k = n.
Für beliebige K-Vektorräume U ⊆ Kn gilt analog dim U + dim U ⊥ = n.
Lemma 7.21. Sei C ⊆ Kn ein [n, k]-Code. Dann ist C = (C ⊥ )⊥ .
Beweis. Sei C ⊆ Kn ein [n, k]-Code und H ∈ Mn−k,n (K) Generatormatrix von C ⊥ .
Nach Konstruktion gilt C ⊆ (C ⊥ )⊥ , denn (C ⊥ )⊥ besteht aus allen Vektoren, die
orthogonal zu C ⊥ sind. Die Vektoren aus C sind per Definition orthogonal zu C ⊥ .
Weiterhin gilt für die Dimension von (C ⊥ )⊥ mit Satz 7.20:
dim(C ⊥ )⊥ = n − dim C ⊥ = n − (n − k) = k = dim C.
Wegen C ⊆ (C ⊥ )⊥ und dim C = dim(C ⊥ )⊥ folgt mit Satz 3.20 und der Isomorphie
endlich erzeugter Vektorräume zu Kn die Behauptung.
79
Die Generatormatrix des dualen Codes erlaubt es uns, schnell zu überprüfen, ob ein
empfangenes Wort gültig ist, d.h. ob ein Vektor ein Codewort ist:
Satz 7.22. Sei C ⊆ Kn ein [n, k]-Code und H Generatormatrix zu C ⊥ . Dann gilt für
c ∈ Kn :
c ∈ C ⇐⇒ Hc = 0.
Der Test, ob ein empfangenes Wort ein gültiges Codewort ist, wird damit besonders einfach. Man nennt eine Generatormatrix H von C ⊥ daher eine PCH-Matrix
(P arity CH eck-Matrix, auch Kontrollmatrix, Prüfmatrix ) zu C. Beachte, dass man
mit Hilfe der Kontrollmatrix und Satz 7.22 nur effizient entscheiden kann, ob ein
empfanges Wort ein (gültiges) Codewort darstellt oder nicht. Wir zeichnen diejenigen Generatormatrizen und PCH-Matrizen aus, deren linker bzw. rechter Teil die
Einheitsmatrix ist:
Def inition 7.23 (Kanonische Generatormatrix, kanonische PCH-Matrix). Eine Generatormatrix der Form (Ik , B) mit B ∈ Mk,n−k (K) heißt kanonische Generatormatrix. Eine PCH-Matrix der Form (A, In−k ) mit A ∈ Mn−k,k (K) heißt kanonische
PCH-Matrix.
Wir zeigen, dass und wie man zu einem gegebenen linearen Code eine kanonische
Generatormatrix erhält. Voraussetzung ist, dass die ersten k Spalten der gegebenen
Generatormatrix linear unabhängig sind.
Satz 7.24. Sei C ⊆ Kn ein [n, k]-Code mit Generatormatrix G = (A, B) ∈ Mk,n (K),
A ∈ Mk,k (K) und B ∈ Mk,n−k (K). Es gibt eine Generatormatrix G0 mit G0 = (Ik , B 0 )
genau dann, wenn rang A = k.
Beweis. Nach Satz 3.24 ist A invertierbar und
A−1 G = (Ik , A−1 B)
ist Generatormatrix des linearen Codes C.
Für kanonische Generatormatrizen gilt, dass die ersten k Komponenten der Codeworte c = (c1 , . . . , cn ) ∈ Kn jeden Wert (c1 , . . . , ck ) ∈ Kk annehmen. Die ersten k Komponenten (c1 , . . . , ck ) sind Informationsstellen, die übrigen Komponenten (ck+1 , . . . , cn )
sind Prüfstellen. Die eigentliche Information einer Nachricht m steht in den Informationsstellen. Die restlichen Prüfstellen sind redundant, sie dienen zur Fehlerkontrolle
und Fehlerkorrektur. Für K = F2 sprechen wir von Informationsbits und Prüfbits.
Die Kodierung einer Nachricht m ∈ Kk erfolgt durch die Abbildung m 7→ mT G.
Gibt es zu jedem linearen Code eine kanonische Generatormatrix? Offensichtlich
nicht; wir können jedoch eine Äquivalenzrelation auf linearen Codes einführen, so dass
sich in jeder Äquivalenzklasse ein linearer Code mit kanonischer Generatormatrix
findet. Zwei lineare Codes heißen äquivalent, wenn man ihre PCH-Matrizen durch
Permutationen der Spalten ineinander überführen kann.
Def inition 7.25 (Äquivalente Codes). Seien C, C 0 ⊆ Kn zwei [n, k]-Codes mit PCHMatrizen H, H 0 ∈ Mn−k,n (K). Dann heißen C und C 0 äquivalent, wenn eine Permutationsmatrix P ∈ Mn,n (K) mit H 0 = HP existiert.
80
7. Lineare Codes
Man überzeuge sich, dass dies eine Äquivalenzrelation ist (siehe Definition 2.30 auf
Seite 28).
Satz 7.26. Zu jedem linearen Code gibt es einen äquivalenten Code mit kanonischer
Generatormatrix.
Beweis. Sei C ⊆ Kn ein [n, k]-Code mit Generatormatrix G ∈ Mk,n (K). Wir gehen
in zwei Schritten vor:
(1) Multiplikation mit einer regulären k × k Matrix T von links liefert eine neue
Generatormatrix G0 = T G von C.
(2) Multiplikation mit einer n × n Permutationsmatrix von rechts liefert die
Generatormatrix G0 P eines äquivalenten Codes.
Also ist für reguläre Matrizen T ∈ Mk,k (K) und Permutationsmatrizen P ∈ Mn,n (K)
die Matrix T GP stets Generatormatrix eines zu C äquivalenten linearen Codes.
Bleibt zu zeigen, dass es geeignete Matrizen T und P gibt so dass T GP = (Ik , B)
ist. Dazu wählen wir P so, dass die ersten k Spalten von GP linear unabhängig
sind. G hat genau k linear unabhängige Spalten, denn G ist eine Basis von C und
es gilt daher k = dim C = rang G = Spaltenrang von G. Wir erhalten eine Matrix
GP = (D, B) ∈ Mk,n (K) mit D ∈ Mk,k (K) und B ∈ Mk,n−k (K). Wegen rang D = k
ist D regulär. Wir multiplizieren von links mit der regulären k × k Matrix D−1 und
es gilt D−1 (D, B) = (Ik , B).
Im Übungsaufgabe 9.2 stellen wir einen Zusammenhang zwischen kanonischer Generatormatrix und kanonischer PCH-Matrix eines linearen Codes her. Dieser erlaubt es,
Generatormatrix bzw. PCH-Matrix eines linearen Codes (und damit sowohl den linearen Code selbst als auch seinen dualen Code) durch eine einzige Matrix A anzugeben.
Diese genügt zur Bestimmung von G und H.
Satz 7.27. Sei C ⊆ Kn ein [n, k]-Code und A ∈ Mk,n−k (K). Genau dann ist (Ik , A)
eine Generatormatrix zu C, wenn (−AT , In−k ) PCH-Matrix zu C ist.
4. Hamming-Codes
Wir lernen eine weitere Klasse binärer linearer Codes kennen, die Hamming-Codes.4
Hamming-Codes sind 1-fehlerkorrigierend und gestatten eine einfache Dekodierung.
r
Def inition 7.28 (Hamming-Code). Der binäre Hamming-Code Cr ⊂ F22 −1 ist der
Code zur PCH-Matrix Hr , deren Spalten aus den 2r − 1 Vektoren von Fr2 \ {0} besteht.
Der Hamming-Code Cr ist also ein [2r − 1, 2r − r − 1]-Code. Charakteristisch für
binäre Hamming-Codes sind die paarweise verschiedenen Spaltenvektoren der Kontrollmatrix. Die Reihenfolge der Spalten von H ist willkürlich, denn eine andere Anordnung erzeugt einen äquivalenten Code mit gleichen Eigenschaften. Für r = 3 sieht
4R.W. Hamming, siehe Fußnote auf Seite 72
4. Hamming-Codes
81
die kanonische PCH-Matrix des Hamming-Codes

1 1 1 0 1

H3 = 1 1 0 1 0
1 0 1 1 0
C3 wie folgt aus:

0 0
1 0 .
0 1
Das Minimalgewicht eines Hamming-Codes Cr ist konstant:
Satz 7.29. Für den Hamming-Code Cr gilt d(Cr ) = 3. Er ist 1-fehlerkorrigierend.
Beweis. Offenbar gibt es ein Codewort c ∈ Cr mit w(c) = 3, so dass d(Cr ) ≤ 3. Es
genügt, d(Cr ) ≥ 3 zu zeigen:
• Falls d(C) = 1,gäbe es ein c ∈ C mit w(c) = 1. Wegen Hr c = 0 müßte eine
Spalte in Hr gleich 0 sein. Widerspruch.
• Falls d(C) = 2, gäbe es ein c ∈ C mit w(c) = 2, d.h. zwei Komponenten von
c wären 1 und alle anderen 0. Wegen Hr c = 0 müßten zwei Spalten von Hr
gleich sein. Widerspruch.
Also ist d(C) = 3.5
Um ein empfangenes Hamming-Code-Wort c̃ zu dekodieren, berechne H c̃ und unterscheide zwei Fälle:
a) H c̃ = 0: Da nach Satz 7.22 ein gültiges Codewort empfangen wurde, sind
entweder keine oder mindestens drei Fehler aufgetreten. Wir setzen c := c̃.6
b) H c̃ 6= 0: Es ist mindestens ein Fehler aufgetreten. Falls genau ein Fehler
aufgetreten ist, gilt
H c̃ = H(c + ei ) = 0 + hi ,
wobei hi ∈ M1,2r −1 (F2 ) die i-te Spalte von H ist. Da die Spalten von H
paarweise verschieden sind, ist die Spalte eindeutig bestimmt und wir setzen
c := c̃ − ei .
Wir berechnen die Packungsdichte der einem (binären) Hamming-Code Cr entr
r
sprechenden gitterartigen Kugelpackung des F22 −1 . Der Hamming-Code Cr ⊂ F22 −1
r
ist ein [2r − 1, 2r − r − 1]-Code. Aufgrund K = F2 gilt |C| = 22 −r−1 und wegen
d(C) = 3 sind die Kugeln B1 (c) paarweise disjunkt. Da eine Kugel mit Radius 1
genau die Codewörter enthält, die sich von ihrem Mittelpunkt c in genau einer Komponente unterscheiden, gilt
|B1 (c)| = 1 + dim F22
r −1
= 2r .
Die Kugeln nehmen den gesamten Raum ein:
P
|B1 (c)|
r
|Cr |2r
22 −r−1 2r
c∈Cr
Packungsdichte =
=
=
= 1.
22r −1
22r −1
22r −1
5Man kann den Satz auch aus Übungsaufgabe 10.1 folgern: Die Spalten von H sind paarweise
r
verschieden und damit über F2 linear unabhängig, also d(Cr ) ≥ 2 + 1. Umgekehrt ist die Summe der
ersten drei Spalten Null, so dass d(Cr ) < 3 + 1 gilt.
6Falls mehr zwei Übertragungsfehler aufgetreten sind, ist diese Wahl falsch, wir können dies aber
nicht erkennen.
82
7. Lineare Codes
Wir haben den folgenden Satz bewiesen, wonach der Hamming-Code Cr ⊂ F22
Beispiel eines 1-perfekten Codes ist:
r −1
das
Satz 7.30. Die Kugeln B1 (c) mit Hammingradius 1 um die Codeworte des Hammingr
r
Codes Cr ⊂ F22 −1 bilden eine Zerlegung von F22 −1 .
Kapitel 8
Direkte Summe
Zu einem Untervektorraum U des Rn betrachten wir das orthogonale Komplement
U ⊥ aller auf U senkrecht stehenden Vektoren. Jeder Vektor w ∈ Rn kann eindeutig
als Summe eines Vektors aus U und eines Vektors aus U ⊥ dargestellt werden. Diese
Zerlegung formalisieren wir mit dem Begriff der direkten Summe.
1. Orthogonales Komplement
Sei K ein Körper und U ⊆ Kn ein Untervektorraum. In Kapitel 7 haben wir den
Orthogonalraum U ⊥ zu U definiert als
U ⊥ := v ∈ Kn uT v = 0 für alle u ∈ U ⊆ Kn .
Sowohl U als auch der zugehörige Orthogonalraum U ⊥ sind Untervektorräume von
Kn . Nach Satz 7.20 stehen die Dimensionen in folgender Relation:
dim U + dim U ⊥ = n.
Für den Fall K = R zeigen wir, dass im Durchschnitt U ∩ U ⊥ nur der Nullvektor
liegt, man nennt daher U ⊥ ⊆ Rn das orthogonale Komplement zum Untervektorraum
U ⊆ Rn . Der Orthogonalraum U ⊥ ist im Vektorraum Rn komplementär im Sinne einer
sogenannten direkten Summe
o
n
U ⊕ U ⊥ = u + v u ∈ U, v ∈ U ⊥ = Rn
bei der jeder Vektor w ∈ Rn als (eindeutig bestimmte) Summe w = u + v mit u ∈ U
und v ∈ U ⊥ darstellbar ist:
Satz 8.1. Sei U ⊆ Rn ein Untervektorraum von Rn . Dann gilt:
a) U ∩ U ⊥ = {0}.
b) Jeder Vektor w ∈ Rn ist eindeutig darstellbar als Summe w = u + v mit
u ∈ U und v ∈ U ⊥ .
83
84
8. Direkte Summe
Beweis. Sei U ⊆ Rn ein Untervektorraum von Rn . Wir zeigen U ∩ U ⊥ = {0}. Sei
v ∈ U ∩ U ⊥ . Wegen vi2 ≥ 0 folgt aus
vT v =
n
X
vi2 = 0,
i=1
dass vi = 0 für alle i, also v der Nullvektor ist.1 Zu zeigen bleibt, dass die Darstellung
w = u + v mit u ∈ U und v ∈ U ⊥ eindeutig ist. Sei b1 , . . . , bk eine Basis von U und
bk+1 , . . . , bn eine Basis von U ⊥ . Wir zeigen,
P dass die Vektoren b1 , . . . , bn eine Basis
von Rn bilden. Seien λ1 , . . . , λn ∈ Rn mit ni=1 λi bi = 0. Dann gilt:
k
X
λ i bi = −
n
X
i=1
i=k+1
| {z }
|
∈U
λ i bi
{z
∈U ⊥
}
Da der Vektor auf der linken Seite in U und der auf der rechten in U ⊥ ist, liegen
beide Vektoren sowohl in U als auch in U ⊥ , also im Durchschnitt U ∩ U ⊥ . Wegen
U ∩ U ⊥ = {0} sind beide Vektoren 0. Weil b1 , . . . , bk und bk+1 , . . . , bn Basen sind,
folgt:
λ 1 = · · · = λk = 0
λk+1 = · · · = λn = 0.
Die n Vektoren b1 , . . . , bn ∈ Rn sind linear unabhängig und bilden nach Satz 3.20 eine
Basis des Vektorraums Rn .
Wir definieren zwei lineare Abbildungen, die einen Vektor w auf seine Anteile in
U und dem orthogonalen Komplement U ⊥ abbilden (diese Abbildung heissen Projektionen):
πU :
n
X
i=1
πU⊥ :
Rn → U
λi bi 7→
k
X
n
X
λ i bi
i=1
i=1
Rn → U ⊥
λi bi 7→
n
X
λ i bi .
i=k+1
Offenbar gilt w = πU (w) + πU⊥ (w). Diese Zerlegung mit πU (w) ∈ U und πU⊥ (w) ∈ U ⊥
ist eindeutig, weil b1 , . . . , bn eine Basis von Rn ist.
Für die beiden Projektionen π und π ⊥ , die wir im Beweis zu Satz 8.1 definiert haben,
gilt π ◦ π = π und π ⊥ ◦ π ⊥ = π ⊥ . Dies ist charakteristisch für Projektionen, die man
für beliebige, algebraische Strukturen (Gruppen, Ringe, Vektorräume, usw.) bildet:
Def inition 8.2 (Projektion). Eine Projektion π ist ein Endomorphismus mit
π ◦ π = π.
Die Funktion πU : V → U , die den Vektor aus dem Vektorraums V auf seinen Anteil
im Untervektorraum U abbildet, nennt man orthogonale Projektion von V auf U .
1Für diesen Schluß setzen wir voraus, dass v , . . . , v reelle Zahlen sind, für endliche Körper gilt
1
n
dies im allgemeinen nicht.
2. Direkte Summe
85
2. Direkte Summe
Nach Satz 8.1 gilt für einen Untervektorraum U ⊆ Rn und den zugehörigen Orthogonalraum U ⊥ :
U + U ⊥ = {u + v | u ∈ U, v ∈ U ⊥ } = Rn
U ∩ U ⊥ = {0}.
Dies ist ein Beispiel einer (inneren) direkten Summe Rn = U ⊕ U ⊥ :
Def inition 8.3 (Innere direkte Summe). Seien U1 , . . . , Ut Untervektorräume desselben Vektorraums. Dann nennen wir
)
( n
t
t
M
X
X Ui :=
Ui =
ui ui ∈ Ui
i=1
i=1
i=1
P
innere direkte Summe, falls Ui ∩
i6=j Uj = {0} für j = 1, . . . , t.
P
Seien U1 , . . . , Ut mit Ui ∩
i6=j Uj = {0} Untervektorräume. Die Dimension des
L
Vektorraums ti=1 Ui ist die Summe
dim
t
M
i=1
Ui =
t
X
dim Ui
i=1
der Dimension der einzelnen Untervektorräume (Übungsaufgabe 10.4).
Analog, aber verschieden von der inneren direkten Summe ist die externe direkte
Summe (auch direktes oder kartesisches Produkt):
n
× Ui := {(u1 , u2 , . . . , un ) | ui ∈ Ui } .
i=1
Für die externe direkte Summe müssen U1 , . . . , Un nicht notwendigerweise Untervektorräume desselben Vektorraums sein.
Die Begriffe innere und externe direkte Summe erklärt man für beliebige, algebraische Strukturen mit kommutativer Addition, wie zum Beispiel Abelsche Gruppen,
Ringe, Ringe mit Eins, Vektorräume usw. Im folgenden sei (Ai )i∈I eine Familie von
Mitgliedern einer solchen algebraischen Struktur. Die Abbildung i 7→ Ai sei injektiv,
I ⊆ N heißt Indexmenge. Es bezeichne 0i ∈ Ai das neutrale Element der Addition
und (gegebenenfalls) 1i ∈ Ai das Einselement.
Def inition 8.4 (Externe direkte Summe). Sei (Ai )i∈I eine Familie von Mitgliedern
einer algebraischen Struktur mit kommutativer Addition. Dann nennen wir
× Ai := {(ai )i∈I | ai ∈ Ai , ai = 0i bis auf endlich viele i ∈ I }
i∈I
externe direkte Summe. Die Operationen auf ×i∈I Ai werden komponentenweise erklärt:
(ai )i∈I (bi )i∈I := (ai bi )i∈I
λ · (ai )i∈I := (λ · ai )i∈I .
∈ {+, −, ·, /, . . .}
86
8. Direkte Summe
Assoziativität, Kommutativität und (gegebenenfalls) Distributivität der Operationen übertragen sich wegen der komponentenweise Definition der Operationen aus
der Familie (Ai )i∈I der algebraischen Struktur. (0i )i∈I ist das Nullelement und (1i )i∈I
das Einselement der externen direkten Summe ×i∈I Ai .
Satz 8.5. Für eine Familie (Ai )i∈I von Gruppen, Ringe oder Vektorräumen hat die
externe direkte Summe ×i∈I Ai die gleiche algebraische Struktur.
Satz 8.5 gilt nicht für Körper und Schiefkörper, denn ein Element (ai )i∈I ist genau
dann invertierbar, wenn zu jedem ai das Inverse a−1
existiert. Es gibt aber (ai )i∈I
i
ungleich der Null, zu denen kein Inverses existiert. Zum Beispiel ist A := K × K für
einen Körper K kein Körper, da es zu (1, 0) 6= 0 kein Inverses in K × K gibt:
Beispiel 8.6. Die externe direkte Summe Z2 × Z3 der beiden endlichen Körper Z2
und Z3 besteht aus den sechs Elementen:
(0, 0), (1, 0), (0, 1), (1, 1), (0, 2), (1, 2).
Die Addition und Multiplikation ist definiert als
(a1 , a2 ) + (b1 , b2 ) := (a1 + a2 mod 2, b1 + b2 mod 3)
(a1 , a2 ) · (b1 , b2 ) := (a1 · a2 mod 2, b1 · b2 mod 3).
Zwar ist Z2 × Z3 wie Z2 und Z3 ein Ring, aber kein Körper.
Für den Vektorraum Rn mit Unterraum U und orthogonalem Komplement U ⊥
gilt:
Rn = U ⊕ U ⊥ ' U × U ⊥ .
Der Isomorphismus Ψ : U × U ⊥ → Rn ist gegeben durch (u, v) 7→ u + v. Die Umkehrabbildung ist
Ψ−1 (x) = πU (x), πU⊥ (x)
mit den beiden Projektionen πU und πU⊥ aus dem Beweis zu Satz 8.1.
Wir charakterisieren die externe direkte Summe ×i∈I Ai ohne Bezug auf die Darstellung der Elemente (ai )i∈I zu nehmen. Die externe, direkte Summe ×i∈I Ai ist
L
isomorph zur inneren, direkten Summe ti=1 hi (Ai ) für geeignete Monomorphismen
(Injektionen) hi : Ai → A:
Satz 8.7. Sei (Ai )i∈I eine Familie von Mitgliedern einer algebraischen Struktur mit
einer kommutativen Addition. Es gilt
A ' × Ai
i∈I
genau dann, wenn es Monomorphismen (Injektionen) hi : Ai →PA für jedes i ∈ I
gibt, derart, dass jedes a ∈ A eine eindeutige Zerlegung2 a =
i∈I hi (ai ) hat mit
ai ∈ Ai , so dass ai = 0i (d.h. hi (ai ) = 0A ) für alle bis auf endlich viele i ∈ I.
Beweis. Wir zeigen beide Richtungen:
P
0
0
2Eindeutigkeit der Zerlegung heißt, dass aus P
i∈I hi (ai ) =
i∈I hi (ai ) folgt ai = ai .
2. Direkte Summe
87
⇒“ A ' ×i∈I Ai ⇒ die Zerlegungen
aus Satz 8.7 existieren.
L
”
Wir definieren zu A := ti=1 hi (Ai ) Abbildungen hi : Ai → A gemäß x 7→
(aj )j∈I mit
(
x falls i = j
aj :=
0 falls i 6= j.
P
Offenbar hat a := (aj )j∈I ∈ A die eindeutige Darstellung a = i∈I hi (ai ).
Die Summe ist endlich, denn nach Definition der externen Summe gilt ai =
0i , d.h. hi (ai ) = 0A , für alle bis auf endlich viele i ∈ I. Nach Voraussetzung
existiert ein Isomorphismus Ψ : ×i∈I Ai → A. Wir setzen die Injektion hi
fort zu
Ψ ◦ hi : A i → A
mit Ψ ◦ hi (ai ) = Ψ(h(ai )). Die Eindeutigkeit der Darstellung a =
hi (ai ) mit ai ∈ Ai überträgt sich beim Isomorphismus Ψ.
P
i∈I
Ψ◦
⇐“ Die Zerlegungen aus Satz 8.7 existieren ⇒ A ' ×i∈I Ai
”
Seien
hi : Ai → A Injektionen, so dass es eine eindeutige Zerlegung a =
P
i∈I hi (ai ) mit ai ∈ Ai gibt. Wir definieren einen Homomorphismus Ψ :
×i∈I Ai → A gemäß
X
Ψ ((ai )i∈I ) :=
hi (ai ).
i∈I
Die Summe ist endlich, weil bis auf endlich viele i ∈ I gilt ai = 0i und
hi (ai ) = 0A ∈ A. Die Abbildung Ψ ist surjektiv,
denn nach Voraussetzung
P
existiert zu jedem a ∈ A eine Zerlegung a = i∈I hi (ai ). Aus der Eindeutigkeit der Zerlegung folgt, dass Ψ injektiv ist. Die Abbildung Ψ : ×i∈I Ai → A
ist der gesuchte Isomorphismus.
Dies war zu zeigen.
Beispiel 8.8. Wir wollen Satz 8.7 anhand eines Beispieles verdeutlichen: Betrachte
Z2 × Z3 . Wir zeigen, dass Z6 ' Z2 × Z3 ist. Dazu definiere Monomorphismen
• h1 : Z2 → Z6 mit h1 (x) := 3x mod 6 und
• h2 : Z3 → Z6 mit h2 (x) := 4x mod 6.
Es gilt:
(
1 mod 2
3≡
0 mod 3
und
(
0 mod 2
4≡
1 mod 3.
Zu a ∈ Z6 ist nachzuweisen, dass eine eindeutige Zerlegung als (a1 , a2 ) ∈ Z2 × Z3 mit
a = h1 (a1 ) + h2 (a2 )
88
8. Direkte Summe
existiert. Setze a1 := a mod 2 und a2 := a mod 3. Aus der Tabelle
a ∈ Z6 a1 ∈ Z2 h1 (a1 ) ∈ Z6 a2 ∈ Z3 h2 (a2 ) ∈ Z6 h1 (a1 ) + h2 (a2 ) ∈ Z6
0
0
3·0=0
0
4·0=0
0+0=0
1
1
3·1=3
1
4·1=4
3+4=1
2
0
3·0=0
2
4·2=2
0+2=2
3
1
3·1=3
0
4·0=0
3+0=3
4
0
3·0=0
1
4·1=4
0+4=4
5
1
3·1=3
2
4·2=2
3+2=5
folgt die Behauptung. Diese Konstruktion gilt allgemein für das Produkt n von paarweise teilerfremden Zahlen q1 , q2 , . . . , qt :
Zn ' Zq1 × Zq2 × · · · × Zqt .
Diese Isomorphie heißt Chinesischer Restsatz und wird in den Vorlesungen über Al”
gebra“ und diskrete Mathematik“ vorgestellt.
”
Für unendliche Familien (Ai )i∈I definiert man das direkte Produkt im Unterschied
zur externen direkten Summe als
Y
Ai := {(ai | i ∈ I) | ai ∈ Ai } .
i∈I
Es ist ×i∈I Ai ⊆
Q
i∈I
Ai , für endliche Indexmengen I gilt die Gleichheit.
Kapitel 9
Volumina und
Determinanten
Die Determinante einer quadratischen Matrix ist eine dieser Matrix zugeordnete Zahl.
Diese Zuordnung, die Determinantenfunktion, hat charakteristische Eigenschaften,
die wir in diesem Kapitel untersuchen. Neben dem Nachweis der Existenz und der
Eindeutigkeit der Determinantenfunktion lernen wir Methoden zu ihrer Berechnung
kennen.
1. Volumina
Das Volumen von Körpern wie beispielsweise Quadern, Würfeln oder Kugeln im 3dimensionalen Raum ist ein aus der Schule bekannter Begriff. Wir verallgemeinern
den Begriff des Volumens vom R3 auf den Rn . Die resultierende Volumenfunktion
hat nahezu die Eigenschaften der Determinantenfunktion und motiviert so deren
Einführung.
Def inition 9.1 (Euklidische Länge). Sei b = (b1 , . . . , bn ) ∈ Rn . Dann heißt
v
u n
√
uX
kbk := t
b2i = bT b
i=1
die (euklidische) Länge1 von b. Wir betrachten dabei nur die positive Lösung der
Wurzel.
Volumina setzen die euklidische Länge als Norm voraus. Man sieht an dieser
Stelle bereits, warum wir uns auf die reellen Zahlen beschränken, denn für endliche
Körper hat die Länge keine geometrische Bedeutung. Im Rn dagegen gilt wegen b =:
(b1 , . . . , bn )T ∈ Rn , dass b = 0 genau dann, wenn kbk = 0.
1Die euklidische Länge ist ein Spezialfall der p-Norm mit p = 2. Wir untersuchen Normen
allgemein in Kapitel 11.
89
90
9. Volumina und Determinanten
Die Vorstellung, dass zwei Vektoren eine Fläche aufspannen, drei Vektoren einen
Quader, usw. erweitern wir auf den allgemeinen Fall. Dazu betrachten wir die Menge
aller Linearkombinationen mit Skalaren aus dem reellen Intervall [0, 1]:
Def inition 9.2 (Parallelepiped). Seien b1 , . . . , bn ∈ Rn . Dann nennen wir
( n
)
X
P (b1 , . . . , bn ) :=
ti bi t1 , . . . , tn ∈ R mit 0 ≤ t1 , . . . , tn ≤ 1
i=1
das von b1 , . . . , bn aufgespannte Parallelepiped (auch Parallelotop, Parallelflach).
Beispiel 9.3. Das Parallelepiped eines Vektors b1 ∈ Rn besteht aus allen Punkten
auf dem Geradenstück vom Nullpunkt zu b1 :
1 b1
0 Das Parallepiped zweier Vektoren b1 , b2 ∈ Rn besteht aus dem von den beiden Vektoren aufgespannten Flächenstück:
b2 b1
-
Stehen die Vektoren senkrecht aufeinander,
ist das Volumen von P (b1 , . . . , bn )
Q
gleich dem Produkt der Seitenlängen ni=1 kbi k. Im allgemeinen Fall ordnen wir einer
Folge von Vektoren b1 , . . . , bn ∈ Rn die Orthogonalvektoren (Höhen) b∗1 , . . . , b∗n ∈ Rn
wie folgt zu:
Def inition 9.4 (Orthogonalvektoren). Seien b1 , . . . , bn ∈ Rn . Dann setzen wir
Ui = span(b1 , . . . , bi−1 )
und ordnen b1 , . . . , bn die Orthogonalvektoren b∗1 , . . . , b∗n ∈ Rn zu mit
bi = (bi − b∗i ) + b∗i ∈ Ui ⊕ Ui⊥ .
Die Zerlegung der bi ist gemäß Satz 8.1 eindeutig. Es gilt:
bi − b∗i ∈ span(b1 , . . . , bi−1 )
und b∗i ∈ span(b1 , . . . , bi−1 )⊥ .
Für i < j gilt per Definition bTi b∗j = 0, also bi ⊥ b∗j und es ist span(b1 , . . . , bi ) =
span(b∗1 , . . . , b∗i ). Ein Orthogonalvektor b∗i steht damit senkrecht zu allen vorherigen
Vektoren b1 , . . . , bi−1 und der von den Orthogonalvektoren aufgespannte Raum ist der
gleiche wie der von den ursprünglichen Vektoren b1 , . . . , bn aufgespannte Raum. Man
beachte, dass sich die Parallelepipede P (b1 , . . . , bn ) und P (b∗1 , . . . , b∗n ) unterscheiden,
das Volumen der Parallelepipede jedoch gleich bleibt.
1. Volumina
91
Beispiel 9.5. Wir verdeutlichen uns die Situation für zwei Vektoren b1 , b2 ∈ Rn
anhand einer Zeichnung:
6
b∗2
b2
-
b1 = b∗1
Hier wird deutlich, warum nicht nur die linearen Hüllen der Vektoren und ihrer Orthogonalvektoren gleich sind, sondern auch, warum sich das Volumen beim Übergang
zu den Orthogonalvektoren nicht ändert.
Def inition 9.6 (Volumen). Seien b1 , . . . , bn ∈ Rn und b∗i , . . . , b∗n ∈ Rn die zugehörigen Orthogonalvektoren. Dann heißt
n
Y
vol P (b1 , . . . , bn ) =
kb∗i k
i=1
das Volumen von P (b1 , . . . , bn ).
Wir kommen zu den Eigenschaften des Volumens, die im Wesentlichen auch die
der Determinantenfunktion sein werden:
Lemma 9.7 (Eigenschaften des Volumens). Seien b1 , . . . , bn ∈ Rn , λ ∈ R und i 6= j.
Dann gilt:
(V1) vol P (b1 , . . . , bi + λbj , . . . , bn ) = vol P (b1 , . . . , bi , . . . , bn ).
(V2) vol P (b1 , . . . , λbi , . . . , bn ) = |λ| · vol P (b1 , . . . , bi , . . . , bn ).
(V3) {b1 , . . . , bn } linear abhängig
=⇒
vol P (b1 , . . . , bn ) = 0.
(V4) P (b1 , . . . , bn ) = P (bσ(1) , . . . , bσ(n) ) für alle Permutationen σ ∈ Sn .
Beweis. Seien b1 , . . . , bn ∈ Rn , λ ∈ R und i 6= j.
(V1) O.B.d.A. sei j < i (denn wegen (V4) ändert sich das Volumen für j > i
nicht). Dann gilt
b∗i = (bi + λbj )∗ ∈ span(b1 , . . . , bi−1 )⊥
Mit anderen Worten: Der Orthogonalvektor b∗i steht senkrecht zu allen
vorherigen Vektoren b1 , . . . , bi−1 und deswegen auch zu allen Linearkombinationen dieser Vektoren. Somit bleibt das Volumen gleich, wenn man das
skalare Vielfache eines Vektors zu einem anderen Vektor addiert.
(V2) Es gilt (λbi )∗ = λ(b∗i ). In der Produktbildung in Definition 9.6 können wir
den Skalar im Betrag herausziehen: kλb∗i k = |λ| · kb∗i k.
(V3) O.B.d.A. sei {b1 , . . . , bi−1 } linear unabhängig und {b1 , . . . , bi } linear abhängig
(denn mit (V4) können die Vektoren vertauscht werden). Dann läßt sich bi
als Linearkombination von b1 , . . . , bi−1 darstellen und der orthogonale Anteil
von bi ist 0, also b∗i = 0 und die Behauptung folgt.
Die letzte Aussage gilt trivialerweise.
92
2. Determinanten
Die geometrische Anschauung des Volumens setzt reelle Vektorräume voraus. Für
beliebige Körper K verallgemeinert man die Volumenfunktion zur vorzeichenbehafteten Determinantenfunktion. Wir identifizieren Kn×n ∼
= Mn,n (K) und definieren die
Determinantenfunktion axiomatisch durch ihre Eigenschaften:
Def inition 9.8 (Determinantenfunktion). Eine Abbildung
 
z1
 .. 
det : Mn,n (K) → K, M =  .  7→ det M
zn
heißt Determinantenfunktion, wenn für λ ∈ R und i 6= j gilt:

 

z1
z1
 .. 


..

.

.
 





(D1) det zi + λzj  = det 
 zi 
 .. 


..
.


.
zn
zn
 
 
z1
z1
 .. 
 .. 
 . 
.
 
 

 
(D2) det 
λzi  = λ det  zi 
 .. 
 .. 
 . 
.
zn
zn
(D3) det In = 1
Wir zeigen in Satz 9.12, dass die Determinantenfunktion durch (D1) – (D3) eindeutig charakterisiert ist. Um die Analogie zu den Eigenschaften der Volumenfunktion
zu verdeutlichen, leiten wir weitere Eigenschaften, aus (D1)–(D3) her. Während die
Beziehung zwischen (V1) und (D1) bzw. (V2) und (D2) unmittelbar ersichtlich ist —
der einzige Unterschied findet sich im Fehlen des Betrags des Skalars — trifft dies für
(V3) und (D3) nicht zu. Wir zeigen daher die folgende Ergänzung zu (D3):
Lemma 9.9. Sei A ∈ Mn,n (K). Dann gilt:
(D3’) Aus rang A < n folgt det A = 0.
Beweis. Seien z1 , . . . , zn ∈ M
P1,n (K) die Zeilenvektoren von A ∈ Mn,n (K) mit
rang A < n. O.B.d.A. sei z1 = ni=2 λi zi . Dann gilt:

 
 
Pn
0
0
i=2 λi zi






z
z
z
2
 (D1)
 2  (D2)
 2

det A = det 
 = det  ..  = 0 · det  ..  = 0.
..

.
.

.
zn
Es folgt die Behauptung.
zn
zn
2. Determinanten
93
Wir kommen zum Analogon von (V4), der Schiefsymmetrie. Die Determinante wechselt beim Vertauschen zweier Zeilen das Vorzeichen.
Lemma 9.10. Seien z1 , . . . , zn ∈ M1,n (K) Zeilenvektoren einer quadratischen Matrix. Dann gilt für i 6= j:
 
 
z1
z1
 .. 
 .. 
.
.
 
 
 zi 
 zj 
 
 
 .. 
 
(D4) det  .  = − det  ... .
 
 
 zj 
 zi 
 
 
 .. 
 .. 
.
.
zn
zn
Beweis. Es gilt:
 






 
..
..
..
..
..
.
.
.
.
 





.

 zi 
 zi 
 −zj 
−zj 
 zj 
  (D1)





 

 .. 
 ..  (D1)
 ..  (D1)
 ..  (D2)
 
det  .  = det  .  = det  .  = det  .  = − det  ...  .
 






 
zj 
zj + zi 
 zj + zi 
 zi 
 zi 
 






 
..
..
..
..
..
.
.
.
.
.
Dies war zu zeigen.
Die Determinantenfunktion ist nicht nur im Sinne von (D2) linear, sondern sie ist
auch in jeder Zeile linear:
Lemma 9.11. Seien z1 , . . . , zn ∈ M1,n (K) Zeilenvektoren einer Matrix. Dann gilt


 
 
z1
z1
z1
 .. 
 .. 
 .. 
 . 
.
.


 
 0
0





(D5) det zi + zi  = det  zi  + det 
 zi 
 .. 
 .. 
 .. 
 . 
.
.
zn
zn
zn
Eine Funktion die (D2) und (D5) erfüllt heißt multilinear.
Beweis. Seien z1 , . . . , zn ∈ M1,n (K) Zeilenvektoren einer Matrix und
 
 
z1
z1
 .. 
 .. 
.
.
 0
 
0


Z := 
Z := 
 zi 
 zi  .
 .. 
 .. 
.
.
zn
zn
94
Falls rang Z < n und rang Z 0 < n gilt, ist auch


z1
 .. 
 . 


0
rang 
 zi + z i  < n
 .. 
 . 
zn
und alle in Lemma 9.11 auftretenden Determinanten sind 0. Sei im weiteren rang Z =
n oder rang Z 0 = n. Wir können o.B.d.A. rang Z = n annehmen. Dann ist
{z1 , . . . , zi , . . . , zn }
eine Basis des Kn und zi0 läßt sich darstellen als zi0 =
n
P
λi zi . Es folgt:
i=1
 
 
 



z1
z1
z1
z1
z1
 .. 
 .. 
 .. 


 .. 
..
.
.


.
 . 
.
 0
 
 
(D1)

(D2)

0









detzi + zi  = detzi + λi zi  = (1 + λi ) det zi = det zi  + det
 zi  .
 .. 
 .. 
 .. 


 .. 
..
.
.
.


 . 
.
zn
zn
zn
zn
zn

Wir vergewissern uns, dass (D1) – (D3) die Determinantenfunktion eindeutig charakterisieren:
Satz 9.12 (Eindeutigkeit der Determinantenfunktion). Es gibt höchstens eine Determinantenfunktion.
Beweis. Seien det, det0 : Mn,n (K) → K Determinantenfunktionen. Wir zeigen, dass
beide Abbildungen identisch sind, d.h. für alle A ∈ Mn,n (K) gilt det A = det0 A. Für
rang A < n gilt mit (D3’) det A = det0 A = 0. Sei also rang A = n.
Da A vollen Rang hat, benötigt der Gauß-Algorithmus keine Spaltenvertauschungen, kommt also nur mit Zeilenvertauschungen aus; denn würde bei der Transformation von A eine Spalte mit ar,r = ar+1,r = . . . = an,r = 0 auftreten (und nur dann
ist eine Spaltenvertauschung notwendig), wäre rang A < n. Aus der transformierten
Matrix A0 des Gauß-Verfahrens erhalten wir durch weitere elementare Zeilentransformationen eine Diagonalmatrix A00 :
 0

 0

a11 ∗ · · ·
∗
a11 0 · · ·
0


.. 
.. 
 0 ... ...
 elementare
 0 ... ...
.
. 
Gauß0
00
 −−−−−−−→ A = 

A −−−−−−−→ A = 




.
.
..
..
..
..
Algorithmus
 ..
 ..
.
.
.
.
∗  Zeilentransf.
0 
0 · · · 0 a0nn
0 · · · 0 a0nn
Da diese Transformationen den Rang unverändert lassen, gilt rang A00 = n. Wir betrachten die Auswirkungen auf die Determinante von A, wobei s ∈ N die Anzahl der
3. Permutationen und Leibniz’sche Determinantenformel
95
Zeilenvertauschungen im Gauß-Verfahren sei. Es gilt
det A
(D1),(D4)
=
(−1)s det A0
(D1)
(−1)s det A00
(D2)
(−1)s a11 · · · ann det In
(D3)
(−1)s a11 · · · ann ,
=
=
=
sowie
det0 A
(D1),(D4)
=
(−1)s det0 A0
(D1)
(−1)s det0 A00
(D2)
(−1)s a11 · · · ann det0 In
(D3)
(−1)s a11 · · · ann .
=
=
=
Wir erhalten det A = det0 A.
Aus der Leibniz’sche Determinantenformel, die wir in Satz 9.25 auf Seite 97 beweisen,
folgt, dass die Determinantenfunktion auch existiert. Da die Determinantenfunktion
jeder quadratischen Matrix A genau einen Wert det A zuordnen, sprechen wir von der
Determinante der Matrix A.
Mit dem Wissen der Existenz lassen sich weitere Aussagen aus dem Beweis von
Satz 9.12 ableiten:
Korollar 9.13 (Determinante einer Diagonalmatrix). Sei D ∈ Mn,n (K) eine Diagonalmatrix mit Diagonalelementen d11 , . . . , dnn . Dann gilt:
n
Y
det D =
dii = d11 · · · dnn .
i=1
Ferner erhalten wir folgendes Invertierbarkeitskriterium für Matrizen:
Korollar 9.14. Für quadratische Matrizen A ∈ Mn,n (K) sind die folgenden Aussagen äquivalent:
a) A ∈ GLn (K), d.h. A ist invertierbar.
b) rang A = n.
c) det A 6= 0.
Wir können die Determinante effizient berechnen:
Korollar 9.15. Mit dem Gauß-Algorithmus läßt sich die Determinante einer n × n
Matrix in O(n3 ) Schritten berechnen.
3. Permutationen und Leibniz’sche
Determinantenformel
Um die Existenz der Determinantenfunktion zu zeigen, befassen wir uns mit Permutationen und ihren Eigenschaften. Eine Permutation ist eine bijektive Abbildung
einer Menge in sich. Da die Benennung der Mengenelemente hier keine Rolle spielt,
96
betrachten wir O.B.d.A. Abbildungen der Menge {1, 2, . . . , n} ⊂ N in sich. Die Menge
aller Permutationen auf {1, . . . , n} bezeichnet man mit Sn . Die Mächtigkeit von Sn ,
d.h. die Anzahl der Permutationen, ist n! = n · (n − 1) · · · 2 · 1 (Fakultät von n).
Zusammen mit der Hintereinanderausführung (Konkatenation) als Operation ist Sn
eine Gruppe:
Def inition 9.16 (Symmetrische Gruppe Sn ). Für X = {1, . . . , n} heißt
Sn := {σ ∈ Abb(X, X) | σ bijektiv }
die symmetrische Gruppe Sn .
Die Konkatenation von Permutationen bezeichnet man als Produkt von Permutationen. Wir kennzeichnen besonders einfache Arten von Permutationen:
Def inition 9.17 (Transposition, Nachbartransposition). Eine Permutation, die nur
zwei Elemente vertauscht, heißt Transposition. Eine Transposition, die zwei aufeinanderfolgende Elemente i und i + 1 vertauscht, heißt Nachbartransposition.
Man bezeichnet für i 6= j die Transposition, welche i und j vertauscht, mit (i, j).
Eine Nachbartransposition ist entsprechend eine Transposition der Form (i, i + 1).
Offenbar ist jede Permutation als Produkt von Transpositionen darstellbar. Da
sich jede Transposition als Produkt von Nachbartranspositionen darstellen läßt (man
tauscht das kleinere“ Element solange nach oben“, bis es an seinem Platz angekom”
”
men ist), gilt:
Satz 9.18. Jede Permutation läßt sich als Produkt von Nachbartranspositionen darstellen.
Def inition 9.19 (Fehlstand). Sei σ ∈ Sn und i, j ∈ {1, . . . , n}. Dann heißt ein Paar
(i, j) mit
i<j
und
σ(i) > σ(j)
ein Fehlstand von σ. Die Anzahl der Fehlstände von σ bezeichnen wir mit
f (σ) := |{(i, j) | i < j und σ(i) > σ(j) }| .
Für die Anzahl der Fehlstände von Transpositionen und Nachbartranspositionen gilt:
Lemma 9.20. Sei σ = (i, j) ∈ Sn eine Transposition mit i < j und τ ∈ Sn eine
Nachbartransposition. Dann gilt:
a) f (σ) = 2(j − i − 1) + 1.
b) f (τ σ) = f (σ) ± 1.
Beweis. Sei σ = (i, j) ∈ Sn Transposition mit i < j und τ ∈ Sn Nachbartransposition. Die Fehlstände von σ sind
• (i, x) mit i < x < j
• (y, j) mit i < y < j
• (i, j).
3. Permutationen und Leibniz’sche Determinantenformel
97
Damit ergeben sich insgesamt j − i − 1 + j − i − 1 + 1 = 2(j − i − 1) + 1 Fehlstände.
Die zweite Behauptung wird in Übungsaufgabe 12.4 gezeigt.
Mit den beiden Aussagen aus Lemma 9.20 charakterisieren wir eine Klasse von Transpositionen:
Korollar 9.21. Sei σ ∈ Sn . Dann sind folgende Aussagen äquivalent:
a) f (σ) ist gerade.
b) Sind τ1 , . . . , τn Nachbartranspositionen mit σ = τ1 · · · τn , so ist n gerade.
c) σ ist Produkt einer geraden Anzahl von Nachbartranspositionen.
Korollar 9.21 läßt sich auch für ungerade Anzahlen von Fehlständen formulieren.
Wir nennen eine Permutation gerade bzw. ungerade, wenn die Anzahl ihrer Fehlstände
gerade bzw. ungerade ist und ordnen ihr ein entsprechendes Vorzeichen (Signum) zu:
Def inition 9.22 (Signum). Sei σ ∈ Sn eine Permutation. Dann heißt
sig(σ) := (−1)f (σ) ∈ {−1, +1}
das Signum von σ. Wir nennen σ gerade, falls f (σ) gerade ist und ungerade, falls
f (σ) ungerade ist.
Die geraden Permutationen bilden eine Untergruppe von Sn , die sogenannte alternierende Gruppe:
Def inition 9.23 (Alternierende Gruppe). Wir nennen
An := {σ ∈ Sn | σ gerade} = sig−1 (+1)
die alternierende Gruppe.
Weil die Abbildung ψ : An → Sn \ An , τ 7→ στ bijektiv ist, folgt:
Lemma 9.24. Sei σ ∈ Sn \ An . Dann gilt
Sn = An ∪ σAn = An ∪ {στ | τ ∈ An } ,
und es ist |An | = 21 n!.
Eine Formel zur Berechnung der Determinante wurde bereits 1690 von Leibniz2
entwickelt. Ihre Bedeutung liegt jedoch nicht in der Berechnung konkreter Determinanten, sondern in ihrer Rolle in Beweisen.
Satz 9.25 (Leibniz’sche Determinantenformel). Sei A = (aij ) ∈ Mn,n (K). Dann gilt
X
det A =
sig(σ)a1,σ(1) · · · an,σ(n) .
σ∈Sn
2Gottfried Wilhelm Leibniz, 1646-1716. Bedeutender Naturwissenschaftler und Philosoph.
Mitbegründer der Infinitesimalrechnung.
98
Insbesondere folgt aus Satz 9.25 die Existenz der Determinantenfunktion. Für n = 2
liefert die Leibniz’sche Determinantenformel:
a b
det
= ad(−1)0 + bc(−1)+1 = ad − bc.
c d
Die folgende Regel für n = 3 ist auch als Sarrus’sche Regel 3 bekannt:


a11 a12 a13
a11 a22 a33 + a12 a23 a31 + a13 a21 a32
det a21 a22 a23  =
−a13 a22 a31 − a23 a32 a11 − a33 a12 a21 .
a31 a32 a33
Man erhält sie aus den 3! = 6 in der Leibniz-Formel auftretenden Permutationen.
Eine Merkregel dafür lautet Hauptdiagonalen (&) minus Nebendiagonalen (.)“:
”
a11 a12 a13 a11 a12
a11 a12 a13 a11 a12
a21 a22 a23 a21 a22
a21 a22 a23 a21 a22
a31 a32 a33 a31 a32
a31 a32 a33 a31 a32
|
{z
}
|{z}
|
{z
}
a11 a22 a33 +a12 a23 a31 +a13 a21 a32
−
(a13 a22 a31 +a23 a32 a11 +a33 a12 a21 )
Für Dreiecksmatrizen erhalten wir die aus Korollar 9.13 auf Seite 95 bekannte Formel


a11 ∗ · · ·
∗

..  Y
n
 0 ... ...
. 
=
det 
aii ,
 ..

..
..
 .
.
.
∗  i=1
0 · · · 0 ann
denn für alle Permutationen σ ∈ Sn außer der Identität gibt es ein i mit σ(i) < i und
somit ai,σ(i) = 0.
Beweis. Wir beweisen die Leibniz’sche Determinantenformel, Satz 9.25, durch Nachweis der Eigenschaften (D1)–(D3) für
X
det : Mn,n (K) → K, A 7→
sig(σ)a1,σ(1) · · · an,σ(n) .
σ∈Sn
Sei A ∈ Mn,n (K) Matrix mit Zeilenvektoren z1 , . . . , zn ∈ M1,n (K).
(D1) Wir zeigen zuerst, dass det“ in jeder Zeile linear ist:
”

 
 
z1
z1
z1


 .. 
 .. 
..


.
.
.


 
 





det zi + λzj  = det  zi  + λ det 
 zj 


 .. 
 .. 
..


.
.
.
zn
zn
zn
Dies folgt, da für jede Permutation σ ∈ Sn gilt:
a1,σ(1) · · · (aj,σ(j) + λaj,σ(j) ) · · · an,σ(n)
= a1,σ(1) · · · aj,σ(j) · · · an,σ(n) + a1,σ(1) · · · λaj,σ(i) · · · an,σ(n) .
3Pierre-Frédéric Sarrus, 1798–1858.
4. Eigenschaften
99
Bleibt zu zeigen, dass det A0 = 0 für
 
z1
 .. 
.
 
 zj 
 
 
0
A =  ...  ∈ Mn,n (K).
 
 zj 
 
 .. 
.
zn
Die Matrix A0 enthält die Zeile zj zweimal, nämlich in der i-ten und in
der j-ten Zeile. Sei τ = (i, j) ∈ Sn diejenige Transposition, welche i und j
vertauscht. O.B.d.A. gelte i < j. Laut Lemma 9.24 stellt
Sn = An ∪ An τ
eine Zerlegung (Partition) von Sn dar. Jede Permutation σ ∈ Sn ist entweder
gerade (σ ∈ An ) oder von der Form σ 0 τ mit σ = σ 0 τ , σ 0 ∈ An . Damit gilt:
X
det A0 =
sig(σ)a01,σ(1) · · · a0n,σ(n)
σ∈Sn
=
X
sig(σ)a01,σ(1) · · · a0n,σ(n) +
sig(στ )a01,στ (1) · · · a0n,στ (n) .
σ∈An
σ∈An
Mit sig σ = 1 und
X
sig σ 0 τ
= −1 folgt:
det A0
X
X
a01,σ(1) · · · a0n,σ(n) −
a01,στ (1) · · · a0i,στ (i) · · · a0j,στ (j) · · · a0n,στ (n)
=
σ∈An
σ∈An
=
X
a01,σ(1) · · · a0n,σ(n) −
σ∈An
X
a01,σ(1) · · · a0i,σ(j) · · · a0j,σ(i) · · · a0n,σ(n)
σ∈An
= 0.
Die Leibniz’sche Determinantenformel ist linear in jeder Zeile.
(D2) Mit gleichem Argument wie in (D1) (Linearität in jeder Zeile) folgt auch
(D2).
(D3) Für die Einheitsmatrix gilt, dass es zu jeder Permutation σ ∈ Sn außer der
Identität ein i gibt mit σ(i) 6= i und damit ai,σ(i) = 0. Also ist
det In = a11 · · · ann = 1.
Aus Satz 9.12 über die Eindeutigkeit der Determinantenfunktion folgt die Behauptung.
4. Eigenschaften
Wir beschäftigen uns mit weiteren Eigenschaften der Determinantenfunktion. Zuerst
zeigen wir, dass alle bisherigen Aussagen auch für die Spalten einer Matrix gelten:
Satz 9.26. Es gilt det A = det AT .
100
Beweis. Sei A ∈ Mn,n (K), σ ∈ Sn . Da Permutationen bijektiv sind, gilt in der
Leibnizformel aus Satz 9.25 auf Seite 97:
a1,σ(1) · · · an,σ(n) = aσ−1 (1),1 · · · aσ−1 (n),n .
Für das Vorzeichen gilt sig(σ) = sig(σ −1 ). Aus
X
X
det A =
aσ−1 (1),1 · · · aσ−1 (n),n sig(σ −1 ) =
aσ(1),1 · · · aσ(n),n sig(σ) = det AT
σ −1 ∈Sn
σ∈Sn
folgt die Behauptung.
Korollar 9.27. Die Eigenschaften (D1)-(D5) der Determinantenfunktion gelten analog für die Spalten einer Matrix.
Die Streichungsmatrix
Matrix

a11 · · · a1j
 ..
..
 .
.

a
·
·
·
a
A0ij := 
ij
 i1
 ..
..
 .
.
an1 · · · anj
A0ij ∈ Mn−1,n−1 (K) zu A = (aij ) ∈ Mn,n (K) ist erkärt als die
···
···
···

a1,1
a1n
 ..
..   .

. 
 ai−1,1

ain 
=
 
..  ai+1,1
.
.  
 ..
ann
an,1

···
···
···
a1,j−1
..
.
a1,j+1
..
.
···
ai−1,j−1 ai−1,j+1 · · ·
ai+1,j−1 ai+1,j+1 · · ·
..
..
.
.
···
an,j−1
an,j+1
···

ann
.. 
. 

ai−1,n 
,
ai+1,n 

.. 
. 
an,n
die durch Streichen der i-ten Zeile und j-ten Spalte in A entsteht. Durch Umstellung
der Leibniz’schen Determinantenformel erhält man den Satz von Laplace4:
Satz 9.28 (Entwicklungssatz von Laplace). Sei A = (aij ) ∈ Mn,n (K). Dann gilt:
a) Entwicklung nach der i-ten Zeile: det A =
n
P
(−1)i+j aij det A0ij .
j=1
n
P
b) Entwicklung nach der j-ten Spalte: det A =
i=1
(−1)i+j aij det A0ij .
Der Entwicklungssatz reduziert den Rechenaufwand nicht notwendigerweise, denn
es treten n Determinanten der Größe n − 1 auf; berechnet man diese mit der Leibniz’schen Determinantenformel, so ergeben sich die n(n − 1)! = n! Permutationen
der Leibnizformel für die ursprüngliche Matrix. Durch eine geschickte Wahl der Zeile
bzw. Spalte, nach der man entwickelt, kann man die Determinante effizienter berechnen (man wähle beispielsweise Zeilen oder Spalten mit vielen Nullen).
Sei K ein Körper und a1 , . . . , an ∈ K. In einem Induktionsbeweis zeigt man mit
Hilfe geschickter Zeilenoperationen und des Entwicklungssatzes von Laplace für die
4Pierre Simon Laplace, 1749–1827, war ein bedeutender französischer Mathematiker und Na-
turforscher. Er verfaßte wichtige Arbeiten auf den Gebieten der Wahrscheinlichkeitsrechnung, wo er
die sogenannte Laplace-Transformation einführte, und der Astronomie. In seinem Hauptwerk, der
fünfbändigen Mécanique céleste“ ( Himmelsmechanik“), finden sich Untersuchungen zu Kugelfunk”
”
tionen, konfokalen Flächen zweiter Ordnung, der sogenannten Laplace-Gleichung, zur Potentialtheorie
und zu partiellen Differentialgleichungen. Durch seinen politischen Opportunismus brachte er es bis
zum Marquis und Pair von Frankreich.
4. Eigenschaften
101
Vandermonde-Matrix (Übungsaufgabe 11.1):

1
1
···
 a1
a2

det Vn (a1 , . . . , an ) = det  ..
..
 .
.
n−1
an−1
a
···
1
2

1
an
..
.
ann−1
 Y

(ai − aj ) .
=

i>j
Vergleiche das Resultat mit Korollar 4.31 auf Seite 56.
Def inition 9.29 (Minor).
nennen wir

a1,1
 ..
 .

ai−1,1

Aij := 
 0
ai+1,1

 ..
 .
Zu einer quadratischen Matrix A = (aij ) ∈ Mn,n (K)
an,1
···
···
···
···
···
a1,j−1
..
.
0
..
.
···
a1,j+1
..
.
···
···
···
ai−1,j−1 0 ai−1,j+1
0
1
0
ai+1,j−1 0 ai+1,j+1
..
..
..
.
.
.
an,j−1 0 an,j+1
···

a1,n
.. 
. 

ai−1,n 

0 

ai+1,n 

.. 
. 
an,n
Minor von A.
Def inition 9.30 (Adjunkte). Zu einer quadratischen Matrix A = (aij ) ∈ Mn,n (K)
nennen wir


det A11 · · · det An,1


..
..
T
adj(A) := 
 = (det Aji ) = (det Aij )
.
.
det A1,n · · ·
det An,n
die Adjunkte (auch komplementäre Matrix) von A.
Lemma 9.31. Sei A ∈ Mn,n (K). Dann gilt:
a) A · adj(A) = det(A) · In .
b) Falls A regulär, dann A−1 =
adj(A)
det A .
Beweis. Sei A ∈ Mn,n (K). Für die Komponenten von A · adj(A) gilt mit dem Entwicklungssatz von Laplace 9.28:
X
n
A · adj(A) =
aik det Ajk
=
k=1
n
X
k=1
=
X
n
k=1
1≤i,j≤n
aik
X
n
j+`
(−1)
·0·
det A0j`
j+k
+ (−1)
`=1,`6=k
aik (−1)j+k det A0jk
·1·
det A0jk
!
1≤i,j≤n
(16)
1≤i,j≤n
Für den Eintrag (i, j) der Matrix A · adj(A) gilt:
(
det A falls i = j
A · adj(A) i,j =
0
falls i 6= j
102
Der erste Fall folgt aus Satz 9.28, denn für i = j ist Gleichung (16) gerade die
Entwicklung nach der i-ten Zeile. Für den zweiten Fall sei


a1,1 · · ·
a1,n
 ..
.. 
 .
. 


 ai,1
···
ai,n 


 ..
.. 
 .
. 


Ā := aj−1,1 · · · aj−1,n  ∈ Mn,n (K)


 ai,1
···
ai,n 


aj+1,1 · · · aj+1,n 


 ..
.. 
 .
. 
an,1 · · ·
an,n
die Matrix, welche aus A entsteht, wird die j-te Zeile durch die i-te Zeile ersetzt.
Entwicklung nach der j-ten Zeile liefert
det Ā =
n
X
(−1)j+k aik det A0jk = 0,
k=1
denn Ā hat zwei gleiche Zeilen (und damit ist rang Ā < n). Die zweite Aussage folgt
mit Division durch det A direkt aus der ersten.
Aus Lemma 9.31 folgt, dass man für reguläre Matrizen die Lösung der dazugehörigen
linearen Gleichunggsysteme angeben kann, wenn die Determinante und die Adjunkte
der Matrix bekannt sind:
Korollar 9.32 (Cramer’sche Regel). Sei A ∈ Mn,n (K) invertierbar und b ∈ Kn .
Dann gilt für die Lösung von Ax = b:
x=
adj(A)
·b
det A
n
xj =
1 X
det Aij bi .
det A
i=1
Für die Berechnung dieser Lösung auf Computern sind Abschätzungen der Größen
der auftretenden Zahlen von Bedeutung. Eine solche Abschätzung für x lautet:
Korollar 9.33. Sei A = (aij ) ∈ Mn,n (K) invertierbar und b ∈ Kn sowie |aij | , |bi | ≤
B für 1 ≤ i, j ≤ n. Dann gilt für die Lösung von Ax = b
nn B n
|xi | ≤
,
det A
insbesondere ist |xi | ≤ nn B n für ganzzahlige A, b.
Beweis. Die Abschätzung folgt aus Korollar 9.32, |bi | ≤ B und
|det Aij | ≤ (n − 1)!B n−1 .
Letzteres ergibt sich aus der Leibnizformel, denn entwickelt man Aij nach der i-ten
Zeile, so treten für die resultierende Matrix A0ij genau (n − 1)! Permutationen von je
n − 1 Matrixeinträgen in der Leibnizformel auf.
Eine wichtige Eigenschaft der Determinante ist ihre Multiplikativität.
4. Eigenschaften
103
Satz 9.34 (Multiplikativität der Determinante). Seien A, B ∈ Mn,n (K). Dann gilt:
det(A · B) = det A · det B.
Beweis. Falls eine oder beide Matrizen nicht vollen Rang haben, ist det A = 0 oder
det B = 0 und somit det A · det B = 0. Nach Übungsaufgabe 8.3 gilt rang(AB) < n
und die Behauptung folgt.
Wir setzen voraus im weiteren voraus, dass beide Matrizen vollen Rang haben.
Nach Beweis von Satz 9.12 auf Seite 94 läßt sich A durch elementare Zeilenoperationen
(insbesondere ohne Spaltenvertauschungen) in die Einheitsmatrix überführen. Damit
gibt es Elementarmatrizen T1 , . . . , Tt ∈ Mn,n (K), so dass
Tt Tt−1 · · · T1 A = In .
Da Elementarmatrizen invertierbar sind, ist A = T1−1 · · · Tt−1 . Wir zeigen, dass für
jede Elementarmatrix Ti−1 gilt
det(Ti−1 B) = det Ti−1 det B
(17)
und die Behauptung folgt. Wir betrachten die drei Typen von Elementarmatrizen:
• Für Tij (λ) gilt mit (D1), dass det Tij (λ) = det In = 1 und Gleichung (17)
folgt.
• Für Ti (λ) gilt mit (D2), dass det Ti (λ) = λ det In = λ und Gleichung (17)
folgt.
• Für Vij folgt Gleichung (17) aus (D4).
Dies war zu zeigen.
Auch über die Determinante von Matrizen einer bestimmten Gestalt kann man Aussagen treffen, beispielsweise über die Determinante von Kastenmatrizen:
Lemma 9.35. Seien A1 , . . . , At Matrizen über

A1
0 ··· 0

.
..
 0 A
. ..

2
det  .
.. ..
 .
.
.
0
 .
0
· · · 0 At
K. Dann gilt


t
 Y

det Ai
=

 i=1
Beweis. Die Behauptung folgt aus der Leibniz’schen Determinantenformel, denn alle
Permutationen, die Matrixeinträge enthalten, die gleich Null sind, tragen zur Summe,
also der Determinante, nichts bei. Bleiben nur diejenigen Permutationen übrig, die
lediglich Einträge innerhalb der Ai vertauschen. Dies sind aber die Permutationen
von det A1 , . . . , det At .
Da die Addition des skalaren Vielfachen einer Zeile zu einer anderen Zeile die Determinante nicht ändert, gilt:
104
Satz 9.36 (Kästchensatz). Seien A1 , . . . , At Matrizen über K. Dann gilt


A1
∗ ··· ∗

.  Y
..
t
 0 A
. .. 


2
det  .
det Ai
=
.. ..
 .

.
.
∗  i=1
 .
0
· · · 0 At
Im allgemeinen gilt jedoch für Matrizen A, B, C, D ∈ Mn,n (K):
A B
det
6= det A · det D − det B · det C.
C D
Kapitel 10
Normalformen und
Eigenwerte
Wir haben in Kapitel 6 gesehen, dass jede lineare Abbildung durch eine Matrix darstellbar ist. In diesem Abschnitt leiten wir durch geeignete Basenwahl einfache bzw.
kanonische Darstellungsmatrizen her.
1. Eigenwerte und Eigenvektoren
Wir fassen diejenigen Matrizen zu Klassen zusammen, die den gleichen Endomorphismus bezüglich verschiedener Basen des Kn darstellen. Man definiert dazu die folgende
Äquivalenzrelation:
Def inition 10.1 (Ähnliche Matrizen). Zwei Matrizen A, B ∈ Mn,n ( K ) heißen ähnlich, A ∼ B, wenn es eine invertierbare Matrix T ∈ GLn (K) gibt mit
A = T −1 BT.
Die Ähnlichkeitsrelation ist eine Äquivalenzrelation (siehe Definition 2.30 auf Seite
28):
Satz 10.2. Die Ähnlichkeitsrelation ist eine Äquivalenzrelation auf Mn,n (K).
Beweis. Seien A, B, C ∈ Mn,n (K). Wir zeigen die Eigenschaften einer Äquivalenzrelation: Aus A = In−1 AIn = In AIn = A folgt die Reflexivität: A ∼ A. Sei A ∼ B,
d.h. A = T BT −1 . Dann gilt T −1 AT = B, also B ∼ A, so dass die Ähnlichkeitsrelation
die Symmetrie-Eigenschaft A ∼ B ⇐⇒ B ∼ A erfüllt. Zu zeigen bleibt die Transitivität: Aus (A ∼ B) und (B ∼ C) folgt A ∼ C. Sei A = T BT −1 und B = SCS −1 .
Dann gilt
A = T BT −1 = T SCS −1 T −1 = (T S)C(T S)−1 .
Nach Satz 5.5 auf Seite 61 sind T S und (T S)−1 regulär, so dass A ∼ C.
105
106
10. Normalformen und Eigenwerte
Wir zeichnen diejenigen linearen Abbildungen aus, die sich — bei geeigneter Basiswahl
— durch möglichst einfache Matrizen darstellen lassen:
Def inition 10.3 (Diagonalisierbarkeit). Eine quadratische Matrix heißt diagonalisierbar, wenn sie zu einer Diagonalmatrix ähnlich ist. Eine lineare Abbildung heißt
diagonalisierbar, wenn es eine Basis gibt, so dass ihre Darstellungsmatrix eine Diagonalmatrix ist.
Zur Untersuchung der Diagonalisierbarkeit verwenden wir Eigenwerte und Eigenvektoren. Dabei handelt es sich um Vektoren, bei denen eine lineare Abbildung einer
Multiplikation mit einem Skalar (einem Eigenwert) entspricht. Die Eigenvektoren sind
also diejenigen Vektoren, die von der linearen Abbildung gestreckt werden.
Def inition 10.4 (Eigenwert, Eigenvektor). Sei A ∈ Mn,n (K) eine quadratische Matrix. Dann nennen wir einen Skalar λ ∈ K einen Eigenwert von A, wenn es einen
Vektor v ∈ Kn \ {0} gibt mit
Av = λv.
Ein solcher Vektor v heißt ein Eigenvektor von A zum Eigenwert λ.
Man beachte, dass Null ein Eigenwert sein kann, ein Eigenvektor jedoch stets vom
Nullvektor verschieden ist.
Nicht jede Matrix ist diagonalisierbar. So ist beispielsweise die folgende, JordanKästchen genannte Matrix, nicht diagonalisierbar:


λ 0 ··· ··· 0

.. 
1 . . . . . .
.



.
 0 . . . . . . . . . .. 



 .. . .
..
..
.
. 0
.
.
0 ··· 0
1 λ
Wir leiten ein Kriterium zur Diagonalisierbarkeit her:
Satz 10.5. Eine quadratische Matrix A ∈ Mn,n (K) ist genau dann diagonalisierbar,
wenn es eine Basis des Kn aus Eigenvektoren von A gibt.
Beweis. Zu jeder Diagonalmatrix gibt es eine Basis des Kn bestehend aus Eigenvektoren, denn die Diagonalmatrix


λ1 0 · · · 0

. 
 0 . . . . . . .. 
 ∈ Mn,n (K)
D := 
 .. . .

..
.
.
. 0
0 · · · 0 λn
hat die Eigenwerte λ1 , . . . , λn mit den dazugehörigen Eigenvektoren e1 , . . . , en ∈ Kn ,
also den kanonischen Einheitsvektoren.
Sei A ∈ Mn,n (K) regulär. Beim Übergang von A zu einer ähnlichen Matrix
T −1 AT übertragen sich die Eigenwerte und Eigenvektoren von A: Ist bi ∈ Kn Eigenvektor zum Eigenwert λi ∈ K von A, also Abi = λi bi , dann ist T −1 bi ein Eigenvektor
107
von T −1 AT zum Eigenwert λi :
T −1 AT (T −1 bi ) = T −1 Abi = T −1 λi bi = λi (T −1 bi ).
Damit bildet b1 , . . . , bn ∈ Kn eine Basis des Kn bestehend aus Eigenvektoren von
A genau dann, wenn T −1 b1 , . . . , T −1 bn ∈ Kn eine Basis des Kn aus Eigenvektoren
der ähnlichen Matrix T −1 AT ist. Weil die Diagonalisierbarkeit von A äquivalent zur
Ähnlichkeit zu einer Diagonalmatrix ist, folgt die Behauptung.
Aus dem nächsten Satz folgt, dass eine n × n Matrix höchstens n paarweise verschiedene Eigenwerte hat:
Satz 10.6. Sei A ∈ Mn,n (K). Dann sind Eigenvektoren b1 , . . . , bm ∈ Kn von A zu
paarweise verschiedenen Eigenwerten λ1 , . . . , λm ∈ K linear unabhängig über K.
Beweis. Wir führen den Beweis durch vollständige Induktion nach m:
• Zur Induktionsverankerung sei m = 1 und b1 Eigenvektor von A. Wegen
b1 6= 0 ist b1 linear unabhängig.
• Der Induktionsschritt erfolgt von m − 1 nach m. Seien b1 , . . . , bm ∈ Kn
Eigenvektoren zu den paarweise verschiedenen Eigenwerten λ1 , . . . , λm ∈ K
von A. Es ist zu zeigen, dass b1 , . . . , bm linear unabhängig sind:
m
X
ti bi = 0
=⇒
(t1 , . . . , tm ) = 0.
i=1
Sei
Pm
i=1 ti bi
= 0. Dann ist
A
m
X
ti bi =
i=1
O.B.d.A. sei λm 6= 0. Aus
m
X
i=1
m
X
ti Abi =
m
X
ti λi bi = 0.
i=1
i=1
Pm
Pm
i=1 ti bi = λm
i=1 ti bi erhalten
m
X
ti λ i bi =
wir:
λ m ti bi ,
i=1
so dass:
m
X
i=1
(ti λi − ti λm )bi =
m−1
X
i=1
(t λ − t λ ) b = 0.
| i i {z i m} i
∈K
Da nach Induktionsvoraussetzung b1 , . . . , bm−1 linear unabhängig sind, gilt
ti λi = ti λm für i = 1, . . . , m − 1.
Nach Voraussetzung sind die Eigenwerte λ1 , . . . , λm paarweise verschieden
und es folgt t1 = . . . = tm−1 = 0 und damit tm = 0.
Dies war zu zeigen.
Aus Satz 10.5 folgt:
Korollar 10.7 (Diagonalisierbarkeitskriterium). Jede n × n Matrix mit n paarweise
verschiedenen Eigenwerten ist diagonalisierbar.
108
Die Matrix 01 10 hat die Eigenwerte 1 und −1 mit den Eigenvektoren 11 und
+1
1 0
01
−1 . Somit gilt 1 0 ∼ 0 −1 . Die Umkehrung von Korollar 10.7 gilt nicht; eine
diagonalisierbare Matrix kann weniger als n paarweise verschiedene Eigenwerte haben:
Die Matrix


1

 

 1 −1
2
2
3 1 1
1
1 1
2 0 0 2
1
1
3

−
A = 2 4 2 = −1 0 2 0 2 0 
4
4  ∈ M3,3 (R)
4
1
1
1
1 1 3
0 −1 1
0 0 6
4
4
4
ist diagonalisierbar, hat jedoch nur zwei Eigenwerte:
• Eigenwert 2 mit Eigenvektoren (1, −1, 0)T und (1, 0, −1)T .
• Eigenwert 6 mit Eigenvektor (1, 2, 1)T .
Lemma 10.8. Sei A ∈ Mn,n (K). Paarweise verschiedene λ1 , . . . , λn ∈ K sind genau
dann Eigenwerte zu A, falls A ähnlich zu einer Diagonalmatrix D ∈ Mn,n (K) mit
Diagonalelementen λ1 , . . . , λn ist:


λ1 0 · · · 0

.
 0 . . . . . . .. 

.
A∼. .

.
.
.
.
.
.
. 0
0 · · · 0 λn
Beweis. Sei D ∈ Mn,n (K) die in Lemma angegebene Diagonalmatrix mit λ1 , . . . , λn
als Diagonalelementen. Hat A die paarweise verschiedenen Eigenwerte λ1 , . . . , λn , so
ist A mit Korollar 10.7 diagonalisierbar. Nach dem Beweis von Satz 10.5 übertragen
sich die Eigenwerte und die Diagonalmatrix hat obige Gestalt. Ist umgekehrt A ähnlich zu D, übertragen sich die Eigenwerte von D auf A. Die Eigenwerte von D sind
gerade λ1 , . . . , λn .
Eine Matrix A ∈ Mn,n (K) kann höchstens n Eigenwerte, aber wesentlich mehr Eigenvektoren haben. Für einen Eigenvektor v ∈ Kn zum Eigenwert λ ∈ K sind auch
alle skalaren Vielfachen µv von v Eigenvektoren von A:
A(µv) = µAv = µλv = λ(µv)
Die Summe zweier Eigenvektoren v1 , v2 ∈ Kn zum gleichen Eigenwert λ von A ist
ebenfalls ein Eigenvektor:
A(v1 + v2 ) = Av1 + Av2 = λv1 + λv2 = λ(v1 + v2 )
Die Menge aller Eigenvektoren zu einem Eigenwert einer Matrix und der Nullvektor
bilden nach Lemma 3.5 einen Untervektorraum von Kn , den sogenannten Eigenraum
von A zum Eigenwert λ:
Def inition 10.9 (Eigenraum). Sei A ∈ Mn,n (K) und λ ∈ K Eigenwert von A. Dann
nennen wir
Eig(A, λ) := {v ∈ Kn | Av = λv }
den zugehörigen Eigenraum.
109
Der Eigenraum von A und λ besteht also aus allen Eigenvektoren von A zu λ
sowie dem Nullvektor (der per Definition kein Eigenvektor ist).
Lemma 10.10. Sei A ∈ Mn,n (K) und λ1 , . . . , λm paarweise verschiedene Eigenwerte
von A. Dann gilt
a)
m
X
Eig(A, λi ) ∼
=
i=1
b) dim
m
M
Eig(A, λi ).
i=1
m
X
Eig(A, λi ) =
i=1
m
X
dim Eig(A, λi ).
i=1
Beweis. Sei A ∈ Mn,n (K) und λ1 , . . . , λn paarweise verschiedene Eigenwerte von A.
Um zu zeigen, dass die Summe der Eigenräume isomorph zur inneren
P direkten Summe
der Eigenräume ist, genügt der Nachweis, dass jeder Vektor u ∈ m
i=1 Eig(A, λi ) eine
eindeutige Darstellung
u = u1 + . . . + um
mit ui ∈ Eig(A, λi )
hat. Zur Eindeutigkeit der Darstellung äquivalent ist die Aussage
Eig(A, λi ) ∩
m
X
Eig(A, λj ) = {0} für i = 1, . . . , m.
j=1
j6=i
P
Sei ui ∈ Eig(A, λi ) mit ui =
j6=i uj und uj ∈ Eig(A, λj ). Nach Satz 10.6 sind
u1 , . . . , um linear unabhängig. Andererseits gilt
ui =
m
X
uj
j=1
j6=i
⇐⇒
ui −
m
X
uj = 0.
j=1
j6=i
Also ist uj = 0 für j = 1, . . . , m, j 6= i und die Behauptung folgt. Die zweite Aussage
fogt in Verbindung mit der ersten Behauptung und Übungsaufgabe 10.4.
Wir erhalten als Kriterium für Diagonalisierbarkeit:
Satz 10.11. Eine Matrix A ∈ Mn,n (K) mit paarweise verschiedenen Eigenwerten
λ1 , . . . , λm ist genau dann diagonalisierbar, wenn
m
X
dim Eig(A, λi ) = n.
i=1
Beweis. Wir zeigen beide Richtungen:
P
⇒“ A ist diagonalisierbar ⇒ m
i=1 dim Eig(A, λi ) = n.
”
Da A diagonalisierbar ist, gibt es eine reguläre Matrix T ∈ Mn,n (K) mit


λ1 0 · · · 0

. 
..
..

.
. .. 
−1
−1  0
 T.
A = T DT = T  . .

.
.
.
.
.
.
. 0
0 · · · 0 λn
110
Dabei können einzelne λi mehrfach auftreten, denn A hat nach Voraussetzung m ≤ n paarweise verschiedene Eigenwerte. Die kanonischen Einheitsvektoren e1 , . . . , en ∈ Kn sind Eigenvektoren zu D und damit bilden
T −1 e1 , . . . , T −1 en eine Basis des Kn aus linear unabhängigen Eigenvektoren
von A.
Pm
⇐“
i=1 dim Eig(A, λi ) = n ⇒ A ist diagonalisierbar.
”
Nach Voraussetzung gibt es eine Basis b1 , . . . , bn ∈ Kn des Kn aus Eigenvektoren von A. Sei
 T
c1
 .. 
−1
B = (b1 · · · bn ) ∈ Mn,n (K) und B =  .  ∈ Mn,n (K)
cTn
mit c1 , . . . , cn ∈ Mn,1 (K). Dann gilt
In = B −1 B = (cTi bj )1≤i,j≤n = (δij )1≤i,j≤n .
Aus
B −1 AB = B −1 Ab1 · · · Abn = B −1 λ1 b1 · · · λm bn
folgt:

B
−1
AB =
(cTi λj bj )1≤i,j≤n
λ1

0
=
 ..
.
0
0
..
.
..
.
···
···
..
.
..
.
0

0
.. 
. 
.

0 
λm
Dabei können einzelne λi mehrfach auftreten.
Dies war zu zeigen.
2. Charakteristisches Polynom
Das charakteristische Polynom einer Matrix erlaubt es, die Eigenwerte einer linearen
Abbildung zu bestimmen.
Def inition 10.12 (Charakteristisches Polynom). Zu einer quadratischen Matrix A ∈
Mn,n (K) heißt


a1,1 − X a1,2
···
a1,n


..
..
..

 a2,1
.
.
.
 ∈ K[X]
χA (X) := det(A − XIn ) = det 


..
..
..

.
.
.
an−1,n 
an,1
· · · an,n−1 an,n − X
das charakteristische Polynom von A.
Berechnen wir die Determinante det(A − XIn ) nach der Leibniz-Formel, Satz 9.25
auf Seite 97, erhält man das charakteristisches Polynom in Form einer Summe von n!
111
Polynomen:
n
Y
X
det(A − XIn ) =
(aii − X) +
qσ
i=1
mit qσ ∈ K[X]n−1 .
σ∈Sn \Id
Der Grad des charakteristischen Polynoms zu einer n × n-Matrix ist daher n.
Das charakteristische Polynom einer linearen Abbildung ist das charakteristische
Polynom einer Darstellungsmatrix dieser Abbildung. Diese Festlegung ist wohldefiniert, denn zwei Darstellungsmatrizen einer linearen Abbildung haben als ähnliche
Matrizen das gleiche charakteristische Polynom:
Lemma 10.13. Seien A, B ∈ Mn,n (K) mit A ∼ B. Dann gilt χA (X) = χB (X).
Beweis. Seien A, B, T ∈ Mn,n (K) mit T regulär und B = T −1 AT . Es gilt
χB (X) = det(T −1 AT − XIn )
= det(T −1 AT − XT −1 T )
= det(T −1 (A − XIn )T )
= det T −1 det(A − XIn ) det T.
Mit det T −1 =
1
det T
Def inition 10.14 (Charakteristisches Polynom einer linearen Abbildung). Das charakteristische Polynom einer linearen Abbildung ist das charakteristische Polynom
einer Darstellungsmatrix der Abbildung.
Man kann die Eigenwerte einer Matrix A über die Nullstellen ihres charakteristisches
Polynom χA ermitteln:
Lemma 10.15. Sei A ∈ Mn,n (K). Ein Skalar λ ∈ K ist genau dann Eigenwert von
A, wenn χA (λ) = 0.
Beweis. Sei A ∈ Mn,n (K) und λ ∈ K. Da für v ∈ Kn und λ ∈ K gilt
Av = λv
⇐⇒
(A − λIn )v = 0,
ist λ genau dan ein Eigenwert von A, falls Lös(A − λIn , 0) 6= {0}. Nach Satz 5.7 auf
Seite 62 ist:
Lös(A − λIn , 0) 6= {0}
⇐⇒
rang(A − λIn ) < n.
Weil eine Matrix dann und nur dann sigulär ist, wenn ihre Determinante Null ist,
folgt:
λ ist Eigenwert von A
⇐⇒
det(A − λIn ) = 0.
Aus χA (λ) = det(A − λIn ) erhalten wir die Behauptung.
Beispiel 10.16. In der reellen Ebene R2 beschreiben wir eine Drehung um den Nullpunkt mit dem Winkel ϕ durch die lineare Abbildung mit der Matrix
cos ϕ − sin ϕ
Dϕ :=
∈ M2,2 (R)
sin ϕ cos ϕ
112
Für das charakteristische Polynom gilt
χDϕ (X) = det
cos ϕ − X
− sin ϕ
sin ϕ
cos ϕ − X
= (cos ϕ − X)(cos ϕ − X) − (− sin ϕ sin ϕ)
= cos2 ϕ − (2 cos ϕ)X + X 2 + sin2 ϕ.
Aus der Euler’schen Formel cos2 ϕ + sin2 ϕ = 1 folgt:
χDϕ (X) = X 2 − (2 cos ϕ)X + 1
(18)
Mit der pq-Formel sind die beiden Nullstellen
x1,2 =
2 cos ϕ ±
p
4 cos2 ϕ − 4
2
genau dann reell, wenn 4 cos2 ϕ − 4 ≥ 0, also cos2 ϕ = 1. Alternative Überlegung:
Nach dem Fundamentalsatz der Algebra (Fakt 4.23 auf Seite 52) zerfällt χDϕ über C
in Linearfaktoren, d.h. es gibt c, λ, λ0 ∈ C mit
χDϕ (X) = c(X − λ)(X − λ0 )
= c(X 2 − X(λ + λ0 ) + λλ0 ).
Nach Lemma 4.25 auf Seite 53 ist λ0 = λ und mit (18) folgt c = 1, λ + λ = 2 cos ϕ
und λλ = 1. Für λ = a + ib ergibt sich a = cos ϕ und cos2 ϕ + b2 = 1. Damit ist λ
genau dann reell, wenn cos2 ϕ = 1, also für ϕ = 0 und ϕ = π.
Eine Drehung in R2 hat nur dann reelle Eigenwerte, wenn ϕ = 0 (also Dϕ =
Id) oder ϕ = π (also bei einer Spiegelung an der x2 -Achse). Die entsprechenden
Eigenwerte sind 1 und −1. Wie sehen die Eigenräume aus?
Man erhält die Menge der Eigenwerte, indem man die Nullstellen des charakteristischen Polynoms ermittelt. Der naheliegende Gedanke, dass die Vielfachheiten
der Eigenwerte den Vielfachheiten der Nullstellen des charakteristischen Polynoms
entsprechen, trifft im allgemeinen nicht zu. Entsprechend zur Notation in Kapitel 4,
Definition 4.20 auf Seite 51, bezeichnen wir die Vielfachheit einer Nullstelle λ von
χA (X) mit ν(A, λ). Die Vielfachheit des Eigenwerts λi von A ist genau dim Eig(A, λi ):
Lemma 10.17. Sei A ∈ Mn,n (K) und λ ∈ K. Dann gilt
dim Eig(A, λ) ≤ ν(A, λ).
Beweis. Sei k := dim Eig(A, λ), b1 , . . . , bk linear unabhängige Eigenvektoren zu λ
und b1 , . . . , bk , . . . , bn sei Basis des Kn . Wir setzen B = (b1 · · · bn ) ∈ Mn,n (K). Dann
ist B −1 AB von der Form

λ 0
.

0 . .
.
 . ...
.
.
−1
B AB = 
 ..
.
 ..

.
 ..
0 ···
113
···
..
.
..
.
..
.
···
···
0
∗
..
.
..
.
λ
∗
···
∗
0
..
.
d1,1
..
.
···
d1,n−k
..
.
0
..
.
∗
..
.
..
.
0 dn−k,1 · · ·
dn−k,n−k







 ∈ Mn,n (K).






Mit Lemma 10.13 und Satz 9.36 über die Determinante von Kastenmatrizen gilt
χA (X) = χB −1 AB (X) = det(B −1 AB − XIn ) = (λ − x)k χD (X).
Somit gilt ν(A, λ) ≥ k.
Beispiel 10.18. Wir betrachten ein Jordan-Kästchen:


λ 0 ··· ··· 0

.. 
1 . . . . . .
.




.
J =  0 . . . . . . . . . ..  ∈ Mn,n (K).


 .. . .

..
..
.
. 0
.
.
0 ··· 0
1 λ
Es gilt

0 ···

1 . . .


dim Eig(A, λ) = n − rang 0 . . .

 .. . .
.
.
0 ···
···
..
.
..
.
0
···
..
.
1

0
.. 
.

..  = n − (n − 1) = 1
.

.. 
.
0
sowie χJ (x) = (λ − x)n . Wir erhalten ν(J, λ) = n > dim Eig(J, λ) = 1.
Wir erhalten folgendes Diagonalisierbarkeitskriterium:
Satz 10.19. Eine quadratische Matrix A ∈ Mn,n (K) ist genau dann diagonalisierbar,
wenn
a) Das
P charakteristische Polynom χA (X) vollständig in Linearfaktoren zerfällt:
λ∈K ν(A, λ) = n
b) Für alle Eigenwerte λ ∈ K gilt: ν(A, λ) = dim Eig(A, λ)
Beweis. Beide Bedingungen zusammen sind gleichwertig zu
X
dim Eig(A, λ) = n
λ∈K
und nach Satz 10.11 gilt dies genau für diagonalisierbare Matrizen.
114
Bei diagonalisierbaren Matrizen entspricht die Vielfachheit der Nullstellen des charakteristischen Polynoms der Vielfachheit der Eigenwerte.
Bemerkung 10.20. Wir wissen, dass jedes Polynom p ∈ C[X] vom Grad n über C
in Linearfaktoren zerfällt. Die Nullstellen müssen nicht paarweise verschieden sein,
aber fast alle Polynome p ∈ C[X] vom Grad n haben n verschiedene Nullstellen in C.
Die Ausnahmemenge in C[X]n ∼
= Cn+1 hat das Lebesguemaß 0. Damit sind fast alle
Matrizen A ∈ Mn,n (C) über C diagonalisierbar.
3. Normalformen
Wie wir gesehen haben, sind nicht alle Matrizen diagonalisierbar. Jedoch kann jede
Matrix auf einfache“ Formen, die kanonischen oder Normalformen, gebracht werden.
”
P
j
m ∈ K[X] ein norDef inition 10.21 (Begleitmatrix). Sei p(X) = m−1
j=0 aj X + X
miertes Polynom vom Grad m. Dann heißt


0 ··· ··· 0
−a0


..
1 . . .
.
−a1 



..  ∈ M
L := 0 . . . . . . ...
m,m (K)
. 


 .. . .
.. 
..
.
.
. 0
. 
0 · · · 0 1 −am−1
Begleitmatrix zu p. Im Fall m = 1 ist L = (−a0 ) ∈ M1,1 (K).
Für jede lineare Abbildung mit vollem Rang gibt es eine Darstellungsmatrix aus
Begleitmatrizen auf der Diagonalen [G86, Kap. 6, Satz 7].
Satz 10.22. Jede reguläre Matrix A ∈ Mm,m (K) ist ähnlich zu einer Kastenmatrix
der Form


L1
0
···
0

.. 
..
 0
.
L
. 


2
.
 .
..
..
 .

.
.
.
0


0
···
0
Lt
Dabei sind L1 , . . . , Lt Begleitmatrizen zu Potenzen von irreduziblen (über K unzerlegbaren) Polynomen pi ∈ K[X]. Das charakteristische Polynom von A ist das Produkt
dieser Polynome:
χA (X) =
t
Y
pi .
i=1
Man spricht von einer blockdiagonalen Matrix .
Lemma 10.23. Die Begleitmatrix L ∈ Mm,m (K) hat das charakteristische Polynom
χL (X) = det(L − XIm ) = (−1)m p(X).
3. Normalformen
115
Beweis. Sei L ∈ Mm,m (K) die Begleitmatrix zum normierten Polynom
p(X) =
m−1
X
ai X i + X m .
i=0
Für das charakteristische Polynom





χL (X) = det(L − XIm ) = det 



−X
0
..
.
0
..
.
..
.
..
.
0
···
1
···
..
.
..
.
..
.
0
−a0
0
..
.



−a1


..

0
.


..

−X
.
1
(−am−1 − X)
erhalten wir durch Entwicklung nach der letzten Spalte gemäß dem Entwicklungssatz
9.28 von Laplace, wobei A0im ∈ Mm−1,m−1 (K) die entsprechende Streichungsmatrix
bezeichnet:
χL (X) =
m−1
X
(−1)i+m (−ai−1 ) det A0im + (−1)m+m (−am−1 − X) · det A0mm
i=1
m
= (−1)
X
m
i−1
(−1)
ai−1 det A0im
− X · det A0mm .
i=1
Mit det A0im = (−X)i−1 (was wir anschließend beweisen werden) gilt weiter:
X
m
m
i−1
i−1
χL (X) = (−1)
(−1) ai−1 (−X)
− X · (−X)m−1
= (−1)m
i=1
m−1
X
ai X i + (−1)m X m
i=0
m
= (−1) p(X).
Der Nachweis von
 −X
det A0im
0
··· ···
. .
 1 .. ..

 0 ... ...

 .. . . . .
 .
. .

··· 0
= det  00 ···
···

 ..
 .
 .
 ..

..
.
0
···
···
···
··· ···
0
..
.
..
.
..
.




.


.. ..

. .
!
1 −X 0 ··· ··· ··· 0  =
(−X)i−1
··· 0 1 −X 0 ··· 0 

. . . . . . . . .. 
. . . . . 
.. .. .. 0 

. . .

. . . . −X
. .
..
··· ··· ···
···
···
···
···
0
1
folgt unmittelbar durch Laplace-Entwicklung nach der letzten Zeile:
det A0im = (−1)(m−1)+(m−1) · 1 · (−X)i−1 · 1m−i = (−X)i−1 .
116
Pn
i
Ist p(X) =
i=0 pi X ∈ K[X] ein Polynom, kann man für die Unbestimmte
X nicht nur Elemente aus K, sondern auch Endomorphismen f : V → V eines KVektorraums V einsetzen. Wir erhalten einen Endomorphismus p(f ) : V → V mit
p(f ) = p0 · id + p1 f + . . . + pn−1 f n−1 + pn f n
wobei
fk = f ◦ . . . ◦ f
| {z }
k-mal
die k-fache Hintereinanderausführung bezeichnet. Auf gleiche Weise kann man ebenfalls eine Matrix A ∈ Mn,n (K) einsetzen:
p(A) = p0 In + p1 A + . . . + pn−1 An−1 + pn An ∈ Mn,n (K)
Der Satz von Cayley-Hamilton besagt, setzt man eine Matrix in ihr eigenes charakteristisches Polynom ein, ergibt dies die Nullmatrix:
Satz 10.24 (Cayley-Hamilton). Für A ∈ Mn,n (K) ist χA (A) = 0.
Einen Beweis findet man in [Beu98, Kapitel 8.3]. Wir wenden den Satz von
Cayley-Hamilton auf die beschreibende Matrix einer linearen Abbildung an und erhalten:
Korollar 10.25. Sei V ein K-Vektorraum und f : V → V Endomorphismus. Dann
gilt χf (f ) = 0, d.h. χf (f ) ist die Nullabbildung.
Für allgemeine Homomorphismen von Vektorräumen f : U → V ist weder die
Determinante noch das charakteristische Polynom erklärt. Die Determinante der Darstellungsmatrix ist zwar im Fall dim U = dim V erklärt, aber von der Wahl der Basen
in U und V abhängig. Für beliebige Homomorphismen von Vektorräumen f : U → V
kann man die Basen in U und V stets so wählen, dass f durch eine Diagonalmatrix
dargestellt wird.
Bemerkung 10.26. Die sogenannte Jordan’sche Normalform bezieht sich nur auf
n × n Matrizen und Endomorphismen, deren charakteristisches Polynom χA (X) in
Linearfaktoren zerfällt, d.h. χA (X) hat mit Vielfachheiten gezählt n Nullstellen.
Dies ist ein Spezialfall, der P
über dem Körper R bei großem n relativ selten ist. Ist
A ∈ Mn,n (K) regulär und λ∈K ν(A, λ) = n, dann ist A ähnlich zu einer verallgemeinerten Diagonalmatrix, deren Kästen Jordan-Kästchen sind. Dabei ist λ ein
Eigenwert von A.
Kapitel 11
Euklidische
Vektorräume
In den vorherigen Kapiteln betrachteten wir allgemeine Körper K. Die analytische
”
Geometrie“ dagegen basiert auf dem Körper der reellen Zahlen. Man erweitert die
Vektorraumstruktur um ein sogenanntes Skalarprodukt, um sowohl Länge als auch
Winkel zu definieren.
1. Vektornorm
Bei einem normierten Vektorraum ist außer dem Raum selbst eine Funktion gegeben,
die jedem Vektor eine Länge (Norm) zuordnet:
Def inition 11.1 (Vektornorm). Sei V ein R-Vektorraum. Eine Vektornorm auf V
ist eine Abbildung k·k : V → R mit folgenden Eigenschaften:
(N1) Positive Definitheit: kvk > 0 für v 6= 0.
(N2) Positive Homogenität: kλvk = |λ| · kvk für λ ∈ R, v ∈ V .
(N3) Dreiecksungleichung: kv + wk ≤ kvk + kwk für v, w ∈ Rn .
Die reelle Zahl kvk heißt Norm oder Länge des Vektors v.
Aus der positiven Homogenität folgt mit λ = 0, dass k0k = 0 ist, aufgrund der
positiven Definitheit gilt daher:
kvk = 0
⇐⇒
v = 0.
Für V = Rn verwendet man häufig eine der folgenden Normen, dabei sei x =
(x1 , . . . , xn )T ∈ Rn :
P
• Betragsnorm: kxk1 := ni=1 |xi |.
qP
n
2
• Euklidische Norm:: kxk2 :=
i=1 xi .
• Maximumsnorm: kxk∞ := max |xi |.
i=1,...,n
117
118
11. Euklidische Vektorräume
Der Nachweis der Norm-Eigenschaften ist einfach. Eine Verallgemeinerung dieser Beispiele ist die sogenannte p-Norm zu einer festen, reellen Zahl p ≥ 1:
X
1
n
p
p
|xi |
kxkp :=
.
i=1
Für p = 1 bzw. p = 2 erhält man die Betrags- und die euklidische Norm, die Maximumsnorm ergibt sich als Grenzfall der p-Norm für p → ∞. Die positive Definitheit
und Homogenität erfüllt die p-Norm offenbar, die Dreiecksungleichung folgt aus der
Minkowski’schen Ungleichung, die man in der Analysis zeigt.
Fakt 11.2 (Hölder’sche Ungleichung). Zu p, q ≥ 1 mit p1 + 1q = 1 gilt für alle x, y ∈ Rn :
T x y ≤ kxk · kyk .
p
q
Ein Spezialfall der Hölder’schen Ungleichung ist die Cauchy-Schwarz-Ungleichung.
Mit p = q = 2 folgt für x, y ∈ Rn :
T x y ≤ kxk · kyk
2
2
Die Gleichheit gilt genau dann, wenn beide Vektoren linear abhängig sind.
Fakt 11.3. Je zwei Normen k·k und k·k0 auf dem Rn sind äquivalent, d.h. es gibt
Konstanten c1 , c2 ∈ R mit
c1 · kxk ≤ kxk0 ≤ c2 · kxk
für alle x ∈ Rn .
Zum Beispiel gilt für x ∈ Rn :
√
kxk2 ≤ kxk1 ≤ n · kxk2
√
kxk∞ ≤ kxk2 ≤ n · kxk∞
kxk∞ ≤ kxk1 ≤ n · kxk∞ .
Der Abstand (Distanz ) zwischen zwei Vektoren x, y ∈ Rn läßt sich definieren als
d(x, y) := kx − yk. Wir haben im Kapitel 7 über lineare Codes gesehen, dass man
den Abstand zweier Vektoren auch unabhängig von einer Norm formulieren kann.
Def inition 11.4 (Metrik). Sei V ein Vektorraum über einem Körper K. Eine Metrik
auf V ist eine Abbildung d : V × V → R mit folgenden Eigenschaften:
(M1) Symmetrie: d(x, y) = d(y, x) für x, y ∈ V .
(M2) Dreiecksungleichung: d(x, z) ≤ d(x, y) + d(y, z) für x, y, z ∈ V .
(M3) Es gilt x = y ⇐⇒ d(x, y) = 0 für x, y ∈ V .
Die reelle Zahl d(x, y) heißt Abstand oder Distanz von x und y.
Für den Abstand zweier Vektoren x und y gilt stets d(x, y) ≥ 0, denn:
0 = d(x, x) ≤ d(x, y) + d(y, x) = d(x, y) + d(x, y) = 2 · d(x, y).
2. Matrixnorm
119
Zu jeder Norm k·k ist d(x, y) = kx − yk eine Metrik auf dem Raum Rn . Die Umkehrung gilt nicht, denn zur Metrik d mit
(
1 falls x 6= y
d(x, y) :=
0 sonst
auf dem Rn stellt die Abbildung x 7→ d(x, 0) keine Norm dar (wieso?).
2. Matrixnorm
Die Matrixnorm auf Mm,n (R) ist mit der Isomorphie Rm·n ' Mm,n (R) äquivalent
zur Vektornorm auf Rm·n :
Def inition 11.5 (Matrixnorm). Eine Matrixnorm auf Mm,n (R) ist eine Abbildung
k·k : Mm,n (R) → R mit folgenden Eigenschaften:
(N1) Positive Definitheit: kAk > 0 für A 6= 0.
(N2) Positive Homogenität: kλAk = |λ| · kAk für λ ∈ R, A ∈ Mm,n (R).
(N3) Dreiecksungleichung: kA + Bk ≤ kAk + kBk für A, B ∈ Mm,n (R).
Die reelle Zahl kAk heißt Norm der Matrix A.
Auch für Matrixnormen ist genau dann A = 0, wenn kAk = 0 gilt. Man verwendet
häufig eine der folgenden beiden Normen, dabei sei A = (aij )ij ∈ Mm,n (R):
• Die Frobenius-Norm entspricht der euklidischen Norm auf Rm×n :
v
uX
n
um X
t
kAkF :=
a2i,j .
i=1 j=1
• die p-Matrixnorm zu einer festen, reellen Zahl p ≥ 1:
kAxkp
kAkp := sup
.
x6=0 kxkp
Wegen der positiven Homogenität können wir die p-Matrixnorm auch schreiben als:
n
o
kAkp = sup kAxkp kxkp = 1 .
Die p-Matrixnorm interpretiert A als Abbildung Rn → Rm mit x 7→ Ax und
nicht als Vektor in Rm×n ' Mm,n (R). Die Matrixnorm kAkp gibt an, um
welchen Faktor die Länge (in der p-Norm) des Vektors x durch die Abbildung
x 7→ Ax höchstens gestreckt wird:
kAxkp ≤ kAkp · kxkp
(19)
Wir haben die p-Matrixnorm kAkp der Matrix Mm,n (R) definiert als das Supremum
von der p-Vektornorm kAxkp über alle x aus der n-Sphäre (Kugeloberfläche)
n
o
Sn,k·kp := x ∈ Rn kxkp = 1
zur Vektornorm k·kp . Die p-Norm einer Matrix ist eine reelle Zahl, denn die Abbildung
x 7→ kAxkp ist stetig und Sn,k·kp kompakt:
120
Lemma 11.6. Zu einer Matrix A ∈ Mm,n (R) nimmt die Abbildung x 7→ kAxkp mit
x ∈ Sn,k·kp ihr Supremum an.
Die p-Matrixnorm hat die wichtige Eigenschaft der Submultiplikativität:
Lemma 11.7 (Submultiplikativität der p-Matrixnorm). Seien A ∈ Mk,m (R) und
B ∈ Mm,n (R). Dann gilt:
kA · Bkp ≤ kAkp · kBkp .
Beweis. Wir wenden Abschätzung (19) an:
kABxkp = kA(Bx)kp ≤ kAkp · kBxkp ≤ kAkp · kBkp · kxkp .
Aus der Ungleichung für beliebiges x 6= 0
kABxkp
kxkp
≤ kAkp · kBkp
folgt, dass das Supremum kA · Bkp = supx6=0
der Normen beider Matrizen beschränkt ist.
n kABxk o
p
kxkp
durch das Produkt kAkp ·kBkp
Im Beweis zu Lemma 11.6 benutzen wir, dass bei der Zusammensetzung linearer
Abbildungen die Darstellungsmatrizen multipliziert werden. Für φB : x 7→ Bx und
φA : x 7→ Ax ist die Zusammensetzung φA ◦ φB mit φA (φB (x)) beschrieben durch die
Matrix AB:
φA ◦ φB = φ(A·B) .
In der Numerik verwendet man die Matrix-Norm, um zu zeigen, dass ein iteratives Verfahren eine approximative Lösung bestimmt. Wir geben im folgenden
einen Algorithmus zur näherungsweisen Berechnung der inversen Matrix zu einer
gegebenen Matrix
an. Zunächst zeigen wir das Analogon zur geometrischen Reihe
P
ν für x ∈ R mit |x| < 1 für Matrizen:
(1 − x)−1 = ∞
x
ν=0
Satz 11.8. Sei A ∈ Mn,n (R) eine quadratische Matrix mit p-Norm kAkp < 1. Dann
gilt
(In − A)−1 =
∞
X
Aν
und
kIn − Akp ≤
ν=0
1
.
1 − kAkp
Beweis. Die Matrix In − A ist regulär, denn anderenfalls gäbe es ein x 6= 0 mit
(In − A)x = 0, also x = Ax. Wegen kxkp = kAxkp ist dann kAkp ≥ 1 im Widerspruch
zur Voraussetzung. Das Inverse (In − A)−1 existiert. Die Identität
(In − A) ·
t
X
Aν = In − At−1
ν=0
impliziert
lim (In − A) ·
t→∞
t
X
ν=0
Aν = In .
(20)
2. Matrixnorm
121
Aufgrund der Submultiplikativität der p-Norm, die wir in Lemma 11.6 gezeigt haben,
gilt:
t+1 A ≤ kAk · kAk · · · kAk = kAkt+1
p
p
p
p
p
|
{z
}
(t + 1)-mal
Mit der Voraussetzung kAkp < 1 folgt limt→∞ At+1 p = 0. Gleichung (20) multipliziert mit (In − A)−1 ergibt:
lim
t→∞
t
X
Aν = (In − A)−1 .
(21)
ν=0
Mit der Dreiecksungleichung für die Matrixnorm erhalten wir:
∞
X
(In − A)−1 ≤
kAν kp ≤
p
ν=0
Die letzte Abschätzung ist die geometrische Reihe
|x| < 1.
1
.
1 − kAkp
P∞
ν
ν=0 x
=
1
1−x
für x ∈ R mit
Es folgt:
Lemma 11.9. Seien A, B ∈ Mn,n (R) quadratische Matrizen mit kIn − ABkp ≤ für ein < 1. Dann gilt:
kIn − 2AB + (AB)2 kp ≤ 2 .
|
{z
}
=AB(AB−2In )
Beweis. Aus dem binomischen Lehrsatz und der Submultiplikativität der p-Matrixnorm folgt:
In − 2AB + (AB)2 = (In − AB)2 ≤ 2 .
p
p
Wähle eine Startmatrix B0 mit kIn − AB0 kp ≤ für ein < 1. Für die Folge
Bi := Bi−1 (−ABi−1 + 2In ) i = 1, 2, 3, . . .
gilt:
i
kIn − ABi kp ≤ 2 .
Nach jeder Iteration wird der Abstand ABi zur Einheitsmatrix In immer kleiner. Die
Differenz In − ABi quadriert sich in jeder Iteration, man spricht von quadratischer
Konvergenz.
Anhand des Wertes wissen wir, nach wievielen Iterationen man eine näherungsweise Lösung mit der gewünschten Approximationsgüte gefunden hat. Die p-Norm
der Startmatrix können wir mit folgendem Satz nach oben mit Hilfe der p- und
1-Vektornorm abschätzen:
122
Satz 11.10. Sei A ∈ Mn,n (R) eine quadratische Matrix mit Spalten A1 , . . . , An .
Dann gilt:
kxk1
kAkp ≤ max kAi kp · max
.
n
i=1,...,n
x∈R \{0} kxkp
Beweis. Es ist:
kAkp = max
x6=0
kAxkp
kxkp
= max
k
Pn
i=1 Ai xi kp
kxkp
x6=0
.
Aus der Dreicksungleichung und der positiven Homogenität der p-Matrixnorm folgt:
!
n
n
X
X
kxi k
|xi |
≤ max
max kAi kp ·
kAkp ≤ max
kAi kp ·
i=1,2,...,n
x6=0
x6=0
kxkp
kxkp
i=1
i=1
Pn
Mit kxk1 = i=1 |xi | erhalten wir die Behauptung:
kAkp ≤ max kAi kp · max
i=1,...,n
x6=0
kxk1
.
kxkp
Zum Beispiel ist
kxk1
kxk2
≤
√
n und
kxk1
kxk∞
≤ n für x ∈ Rn \ {0}.
3. Skalarprodukt
Ein euklidischer Vektorraum ist ein reeller Vektorraum in Verbindung mit einem
Skalarprodukt:
Def inition 11.11 (Skalarprodukt). Sei V ein R-Vektorraum. Ein Skalarprodukt auf
V ist eine Abbildung h·, ·i : V × V → R, die folgenden Regeln genügt:
(S1) Positive Definitheit: hv, vi > 0 für alle v 6= 0.
(S2) Bilinearität: Für jedes v ∈ V sind die beiden Abbildungen hv, ·i , h·, vi : V →
R mit w 7→ hv, wi und w →
7 hw, vi linear.1
(S3) Symmetrie: hv, wi = hw, vi für alle v, w ∈ V .
Man sagt kurz, h·, ·i ist eine positiv definite, symmetrische Bilinearform auf V .
Ein wichtiges Beispiel eines Skalarproduktes auf dem Rn , das sogenannte kanonische
Skalarprodukt auf dem Rn , haben wir bereits kennengelernt:
n
X
hx, yi := xy T =
xi yi .
i=1
Man überzeuge sich, dass es die Bedingungen eines Skalarprodukts erfüllt. Neben dem
kanonischen Skalarprodukt gibt es auch Skalarprodukte, die durch einen Basiswechsel
entstehen. Sei etwa B ∈ Mn,n (R) eine Basismatrix bestehend aus den Spaltenvektoren B1 , . . . , Bn . Dann hat das kanonische Skalarprodukt h·, ·i zur Basis B die Form
h·, ·iB mit:
hv, wiB := hBv, Bwi = (Bv)T (Bw) = v T B T Bw.
1Wegen der Symmetrie hätte es genügt, die Linearität in nur einer Komponente zu fordern.
3. Skalarprodukt
123
die Matrix Q := B T B ist symmetrisch, d.h. Q = QT .
p Für einen euklidischen Vektorraum verwendenn wir als Norm die Abbildung kvk :=
hv, vi. Für das kanonische Skalarprodukt im R liefert dies die euklidische Länge
v
u n
uX
kxk = t
x2i .
i=1
p
Wir zeigen, daß kvk := phv, vi eine Norm ist. Aus den Eigenschaften des Skalarprodukts folgt unmittelbar hv, vi > 0 für v 6= 0 und
p
p
p
p
hλv, λvi = λ · hv, λvi = λ2 · hv, vi = |λ| · hv, vi.
Die Dreiecksungleichung kv + wk ≤ kvk + kwk der Norm weist man mit Hilfe der
Cauchy-Schwarz-Ungleichung nach:
≤kvk+kwk
z }| {
kv + wk = kvk + 2 · hv, wi + kwk2 ≤ (kvk + kwk)2
2
2
Zu zeigen bleibt die Abschätzung hv, wi ≤ kvk · kwk:
Satz 11.12 (Cauchy-Schwarz-Ungleichung). In jedem euklidischen Vektorraum V gilt
für v, w ∈ V :
|hv, wi| ≤ kvk · kwk .
Beweis. Für w = 0 gilt die Behauptung, so dass im weiteren w 6= 0 sei. Setze
λ := hv,wi
. Es gilt:
kwk2
0 ≤ hv − λw, v − λwi
(22)
= hv, v − λwi − λ · hw, v − λwi
= hv, vi − 2λ · hv, wi + λ2 · hw, wi
Mit hu, ui = kuk2 folgt:
0 ≤ kvk2 − 2 ·
hv, wi2 hv, wi2
hv, wi2
2
+
=
kvk
−
.
kwk2
kwk2
kwk2
Wir erhalten die Behauptung aus hv, wi2 ≤ kvk2 · kwk2 . Die Gleichheit in (22) gilt
genau dann, wenn w = 0 oder v = µw für ein µ ∈ R.
Seien x, y ∈ Rn \ {0} und h·, ·i das kanononische Skalarprodukt. Gemäß CauchySchwarz-Ungleichung gilt
−1 ≤
Somit gilt cos ϕ =
hx,yi
kxk·kyk
hx, yi
≤ +1.
kxk · kyk
für genau ein Winkel ϕ ∈ [0, π]:
124
Abbildung 1. Winkel
y
y2
ϕK
-
x
cos ϕ
y1
Abbildung 2. Cosinus
+1
π/2
0
π
3π/2
2π
-
ϕ
−1
π/2
π
}
rϕ
cos ϕ
e1
-
0/2π
2π/2
Satz 11.13. Zu x, y ∈ Rn \ {0} ist der Winkel zwischen x, y
ϕ := ∠(x, y) := arccos
mit cos ϕ =
hx, yi
kxk · kyk
hx,yi
kxk·kyk .
Beweis. Sei o.B.d.A. x = (x1 , x2 )T ∈ R2 mit x2 = 0 und x1 ≥ 0, sowie y =
(y1 , y2 )T ∈ R2 . Für den Winkel ϕ = ∠(x, y) gilt:
cos ϕ =
y1
kxk · y1
hx, yi
Ankathete
=
=p 2
=
.
2
Hypothenuse
kxk · kyk
kxk · kyk
y 1 + y2
Wir erhalten als Verallgemeinerung des Satzes von Pythagoras:
3. Skalarprodukt
125
Satz 11.14 (Cosinussatz). Für x, y ∈ Rn \ {0} gilt mit ϕ := ∠(x, y):
kx − yk2 = kxk2 + kyk2 − 2 hx, yi
= kxk2 + kyk2 − 2 kxk · kyk · cos ϕ.
Für cos ϕ = 0 ist ∠(x, y) = 21 π, also
cos ϕ = 0
⇐⇒
kxk2 + kyk2 = kx − yk2 .
Korollar 11.15 (Parallelogramm-Gleichung). Für x, y ∈ Rn \ {0} gilt:
kx + yk2 + kx − yk2 = 2 kxk2 + 2 kyk2 .
Abbildung 3. Parallelogramm-Gleichung
x
:
kx − yk
0
kx + yk
- x+y
j
y
Ist der Winkel ∠(v, w) = 90◦ , sagt man, der Vektor w steht senkrecht auf v:
Def inition 11.16 (Orthogonalität). Zwei Vektoren v, w ∈ V eines euklidischen Vektorraums V sind orthogonal oder senkrecht, v ⊥ w, falls hv, wi = 0. Wir schreiben
v ⊥ U für eine Menge U von Vektoren, wenn v orthogonal zu allen Vektoren u ∈ U
ist.
Eine Menge von Vektoren v1 , . . . , vn ∈ V heißt orthogonal, wenn vi ⊥ vj für
i 6= j. Wie für das kanonische Skalarprodukt in Abschnitt 1 definiert man zu einem
Untervektorraum U eines reellen Vektorraum V das orthogonale Komplement U ⊥
gemäß
U ⊥ := {v ∈ V | hu, vi = 0 für alle u ∈ U } = {v ∈ V | v ⊥ U } .
Analog zu Satz 8.1 gilt V = U ⊕ U ⊥ .
Def inition 11.17 (Orthogonal-, Orthonormalbasis). Die Vektoren b1 , . . . , bn eines
Vektorraum V nennt man orthonormal oder Orthonormalsystem, wenn kbi k = 1 für
i = 1, . . . , n und bi ⊥ bj für i 6= j.2 Bilden die Vektoren eine Basis von V , spricht
man von einer Orthogonal- bzw. Orthonormalbasis.
aus
Vektoren
b1 , . . . , bn eines Orthogonalsystems sind stets linear unabhängig, denn
Pn
λ
b
j=1 j j = 0 folgt für i = 1, . . . , n:
* n
+
n
X
X
0 = h0, bi i =
λ j bj , b i =
λi · hbj , bi i = λi · hbi , bi i = λi · kbi k ,
j=1
j=1
2Anders ausgedrückt hb , b i = δ für 1 ≤ i, j ≤ n.
i j
i,j
126
so dass wegen bi 6= 0 folgt kbi k =
6 0 und λ1 = · · · = λn = 0.
Sei b1 , . . . , bn eine Orthogonalbasis
P eines reellen Vektorraums V . Jeden Vektor
v ∈ V können wir schreiben als v = nj=1 λj bj . Es folgt für i = 1, . . . , n:
* n
+
n
X
X
λ j bj , b i =
λj hbj , bi i = λi · hbi , bi i = λi · kbi k2
hv, bi i =
j=1
i=j
Die i-te Koordinate bezüglich der Orthogonalbasis ist λi =
hv,bi i
:
kbi k2
Satz 11.18. Sei b1 , . . . , bn eine Orthogonalbasis eines reellen Vektorraums V . Für
v ∈ V gilt:
v=
n
X
hv, bi i
i=1
Für eine Orthonormalbasis ist v =
· bi .
kbi k2
Pn
i=1 hv, bi i
· bi .
Sei V ein reeller Vektorraum und U ein Untervektorraum mit einer orthogonalen
Basis b1 , . . . , bm . Diese können wir durch Hinzunahme von Vektoren bm+1 , . . . , bn aus
U ⊥ zu einer Basis von V erweitern. Die orthogonale Projektion πU : V → U ist
gegeben durch:
v 7→
m
X
hv, bj i
j=1
kbj k2
· bj
Das Schmidt’sche Orthogonalisierungsverfahren erzeugt zu einer Basis b1 , . . . , bn eines
euklidischen Vektorraums V eine Orthogonalbasis b∗1 , . . . , b∗n gemäß folgender Rekursion:
b∗1 := b1
b∗i := bi −
i−1
X
hbi , b∗ i
j
∗ k2
kb
j
j=1
· b∗j
für i > 1.
(23)
Die Vektoren b∗1 , . . . , b∗n nennt man die Höhen der Basisvektoren b1 , . . . , bn , die Ko∗
effizienten µi,j := hbkbi∗,bkj2i Gram-Schmidt-Koeffizienten. In Übungsaufgabe 12.2 zeigen
j
wir die Korrektheit des Schmidt’schen Orthogonalisierungsverfahrens:
Satz 11.19. Sei b1 , . . . , bn eine Basis eines euklidischen Vektorraums V . Die Vektoren
b∗1 , . . . , b∗n der Rekursion (23) bilden eine Orthogonalbasis von V .
Aus der Eindeutigkeit der Zerlegung bi = πU (bi ) + πU ⊥ (bi ) folgt, dass für eine
geordnete Basis, d.h. die Reihenfolge der Basisvektoren ist fest vorgegeben, die Höhen
eindeutig bestimmt sind.
Indem wir die Höhen b∗1 , . . . , b∗n der Orthogonalbasis normieren, also b∗i durch kb1∗ k ·
i
b∗i ersetzen, erhält man eine Orthonormalbasis, d.h. jeder euklidische Vektorrraum
besitzt eine Orthonormalbasis.
4. Orthogonale Abbildungen und Matrizen
127
Wir nennen eine Abbildung orthogonal, wenn das gegebene Skalarprodukt zweier
Vektoren x, y mit dem der Bilder übereinstimmt:
Def inition 11.20 (Orthogonale Abbildung). Eine lineare Abbildung f : Rn → Rm
heißt orthogonal (auch isometrisch), wenn für alle x, y ∈ Rn gilt:
hx, yi = hf (x), f (y)i .
Der Begriff orthogonale Abbildung“ läßt sich auf den Fall beliebiger Vektorräume
”
verallgemeinern. Sei V ein reeller, n-dimensionaler Vektorraum mit Basis B und Φ :
V → Rn der Isomorphismus, der einen Vektor auf seinen Koordinatenvektor bezüglich
der Basis abbildet:
Φ(Bt) = (t1 , . . . , tn )T .
Durch hv, wiV := hΦ(v), Φ(w)i ist ein Skalarprodukt auf V definiert. Der Endomorphismus F : V → V heißt orthogonal, wenn hv, wiV = hf (v), f (w)i für alle v, w ∈ V
ist. Dies gilt genau dann, wenn die Abbildung (Φ ◦ f ◦ Φ−1 ) : Rn → Rn orthogonal
ist.
Lemma 11.21. Sei A ∈ Mn,n (R) und φA : Rn → Rn mit x 7→ Ax. Die Abbildung φA
ist genau dann orthogonal (bezüglich kanonischem Skalarprodukt), wenn AT = A−1 .
Beweis. Sei e1 , . . . , en die Standardbasis des Rn . Die Abbildung φA ist genau dann
orthogonal, wenn für 1 ≤ i, j ≤ n gilt:
hei , ej i = hφA (ei ), φA (ej )i .
| {z } |
{z
}
=eT
i ·ej
T
=eT
i A Aej
Dies gilt genau dann, wenn AT A = In , also AT = A−1 .
Eine Basis b1 , . . . , bn heißt orthonormal, falls hbi , bj i = δi,j für 1 ≤ i, j ≤ n.
Satz 11.22. Sei A ∈ Mn,n (R) und φA : Rn → Rn mit x 7→ Ax. Bezüglich des
kanonischen Skalarprodukts sind folgende Aussagen äquivalent:
a) Die Abbildung φA ist orthogonal, d.h. AT A = In .
b) A−1 = AT .
c) Die Zeilenvektoren bilden eine Orthonormalbasis des Rn .
d) Die Spaltenvektoren bilden eine Orthonormalbasis des Rn .
Wir nennen die Matrix A orthogonal, wenn die Spalten- bzw. Zeilenvektoren eine
Orthonormalbasis des Rn bilden:
Def inition 11.23 (Orthogonale Matrix). Eine quadratische Matrix A ∈ Mn,n (R)
heißt orthogonal, wenn AT A = In . Die Menge der orthogonalen n × n-Matrizen bezeichnet man mit On (R) ⊆ Mn,n (R).
Die orthogonalen n × n-Matrizen On (R) bilden bezüglich der Multiplikation eine
Gruppe bzw. eine Untergruppe von GLn (R):
128
Satz 11.24. Die Menge der orthogonalen n×n-Matrizen On (R) ist ein multiplikative
Gruppe.
Beweis. Da die Matrix-Multiplikation assoziativ ist, genügt der Nachweis, dass On (R)
abgeschlossen ist gegen Multiplikation und Inversenbildung. Zu A, B ∈ On (R) gilt
AB ∈ On (R), denn
T
T
(AB)T (AB) = B T · A
| {zA} ·B = B B = In .
=In
Zu A ∈ On (R) gibt es ein Inverses A−1 = AT ∈ On (R).
Wir haben bereits einige der Matrixgruppen kennengelernt. Die allgemeine, lineare
Gruppe ist
GLn (K) = {A ∈ Mn,n (K) | det A 6= 0 } .
Für K = R bilden die orthogonalen Matrizen
On (R) = A ∈ GLn (R) AT A = In
eine Untergruppe von GLn (R), die sogenannte orthogonale Gruppe (vergleiche Satz
11.24 auf Seite 128). Die spezielle orthogonale Gruppe SOn (R) ist ihrerseits eine
Untergruppe von On (R):
SOn (R) = {A ∈ On (R) | det A = +1 }
Beispiel 11.25. Beispiele orthogonaler 2 × 2-Matrizen sind Drehungen Dϕ um ϕ ∈
[0, 2π) und Spiegelungen SP:
cos ϕ − sin ϕ
1 0
Dϕ =
SP =
sin ϕ cos ϕ
0 −1
Mit diesen beiden Matrix-Typen können wir die Menge der orthogonalen 2 × 2Matrizen schreiben als O2 (R) = {Dϕ , SP ·Dϕ | ϕ ∈ [0, 2π) }.
Es gilt [Beu98, Kap. 10.4]:
Satz 11.26. Sei A ∈ On (R) eine orthogonale n × n-Matrix. Dann gibt es eine orthogonale Matrix T ∈ On (R), so dass T −1 AT von folgender Form ist:


Ik

−I`
0 




D
ϕ
1
(24)

.


.
.


.
0
Dϕm
Jede orthogonale Abbildung φ : Rn → Rm hat bezüglich einer geeigneten Orthonormalbasis eine darstellende Matrix der Form (24).
129
Sei b1 , . . . , bn Basis eines euklidischen Vektorraums. Mit dem Gram-SchmidtOrthogonalisierungsverfahren
b∗1 := b1
b∗i := bi −
i−1
X
hbi , b∗ i
j
∗
kbj k2
j=1
· b∗j
(25)
für i > 1.
berechnet man eine Orthogonalbasis b∗1 , . . . , b∗n . Zu den Gram-Schmidt-Koeffizienten
∗
µi,j := hbkbi∗,bkj2i mit i > j definiere:
j
(
1 für i = j
µij :=
0 für i < j,
so dass:
b1 · · ·
bn = b∗1 · · ·


1 µ2,1 · · · µn−1,1 µn,1
0 1
µn−1,2 µn,2 


 ..
..  .
.
..
∗
..
bn ·  .
.
. 


0
0
1
µn,n−1 
0 ···
0
0
1
|
{z
}
T
= µi,j
1≤i,j≤n
Wir normieren die Vektoren der Orthogonalbasis:

b∗1
···
b∗n
=
b∗1
kb∗1 k
|
···
{z
b∗n
kb∗n k
∈On (R)


· 

} 
kb∗1 k

0
.. 
. 


..
.
0 
· · · 0 kb∗n k
{z
}
0
..
.
0
..
.
0
|
·
Diagonalmatrix mit pos. Elementen
und erhalten:

b1 · · ·
b∗
bn = kb∗1 k
| 1
···
{z
∈On (R)
b∗n
kb∗n k
kb∗1 k

 0
·
 .
}  ..
0
|
0
..
.
···

0
.. 
. 
 · µi,j T

1≤i,j≤n
..
.
0 
0 kb∗n k
{z
}
·
∈ODn (R)
Da die Gram-Schmidt-Orthogonalisierung eindeutig ist, gilt:
Satz 11.27. Sei B ∈ GLn (R). Dann existiert eine eindeutige Zerlegung B = OT mit
orthogonaler Matrix O ∈ On (R) und obere Dreiecksmatrix T ∈ ODn (R).
Korollar 11.28 (Iwasawa-Zerlegung). Sei B ∈ GLn (R). Dann existiert eine eindeutige Zerlegung B = ODT mit orthogonaler Matrix O ∈ On (R), einer Diagonalmatrix
D mit positiven Diagonalelementen und einer oberen Dreiecksmatrix T ∈ ODn (R).
Teil 2
Lineare Algebra II
Kapitel 12
Konvexe Geometrie
Polyhedra, lineare Ungleichungssysteme und lineare Programmierung stellen drei Facetten des gleichen Problemfeldes dar: eine geometrische, eine algebraische und eine optimierende Sichtweise. Diese Beziehungen wurden zuerst von J. Fourier um
1820 bemerkt und später im 20. Jahrhundert wiederentdeckt. In diesem Abschnitt
beschäftigen wir uns mit der geometrischen und der algebraische Sicht, auf die lineare Programmierung gehen wir in Kapitel 13 ein.
1. Konvexe Mengen
Zu p, q ∈ Rn bezeichnen wir die Verbindungsstrecke von p und q mit:
[p, q] := {λp + (1 − λ)q | 0 ≤ λ ≤ 1 }
= {λp + µq | λ ≥ 0, µ ≥ 0, λ + µ = 1 } .
Def inition 12.1 (Konvexe Menge). Eine Teilmenge K ⊆ Rn ist eine konvexe Menge,
wenn für alle p, q ∈ K gilt [p, q] ⊆ K, d.h. die Verbindungsstrecke in K liegt.
T
Sei (Ki )i∈I eine Familie konvexer Mengen, dann ist auch der Durchschnitt i∈I Ki
eine konvexe Menge. Die Vereinigung konvexer Mengen ist hingegen im allgemeinen
nicht konvex. Dies führt zum Begriff der konvexen Hülle:
Def inition 12.2 (Konvexe Hülle). Zu einer Teilmenge M ⊆ Rn ist die konvexe Hülle
\
kon(M ) :=
K.
M ⊆K
K konvex
Die konvexe Hülle kon(M ) von M ist die kleinste konvexe Menge, die M umfasst.
Zur vereinfachung der Notation schreiben wir kon(p1 , . . . , pk ) für die konvexe Hülle
einer Menge von Punkten p1 , . . . , pk .
P
Def inition 12.3 (Konvexkombination). Eine Linearkombination ki=0 λi pi von k+1
Punkten p0 , . . . , pk ∈ Rn mit λ0 , . . . , λk ∈ R heißt Konvexkombination, wenn λ0 , . . . , λk ≥
P
0 und ki=0 λi = 1.
133
134
12. Konvexe Geometrie
Zum Bespiel sind die Punkte einer Verbindungsstrecke [p, q] genau die Konvexkombinationen der Punkte p und q.
Lemma 12.4. Sei K ⊆ Rn eine konvexe Menge und p0 , . . . , pk ∈ K. Dann enthält
P
K jede Konvexkombination ki=0 λi pi von p0 , . . . , pk .
Beweis. Für k = 0 kommt nur p0 als Konvexkombination von p0 in Betracht, so
dass die Behauptung für k = 0 trivial ist. Für k ≥ 1 beweisen wir die Aussage durch
Induktion über k:
• Inmduktionsasis k = 1: Sei x eine Konvexkombination von p0 , p1 , diese liegt
auf der Verbindungsstrecke: x ∈ [p0 , p1 ]. Da K konvex ist, gilt [p0 , p1 ] ⊆ K
und es folgt x ∈ K.
P
• Induktionsschluß von k − 1 auf k: Sei x := ki=0 λi pi eine Konvexkombination. O.B.d.A. sei λk > 0. Dann ist
µ := 1 − λ0 = λ1 + · · · + λk > 0
und es gilt
λk
λ1
p1 + · · · + pk .
x = λ 0 p0 + µ
µ
µ
|
{z
}
=:y
Pk
Wegen λµ1 , . . . , λµk ≥ 0 und i=1 λµi = µµ = 1 ist y eine Konvexkombination
der k − 1 Punkten p1 , . . . , pk ∈ K. Nach Induktionssannahme gilt y ∈ K. Da
x=
k
X
λi pi = λ0 p0 + µy,
i=0
λ0 , µ ≥ 0 und λ0 + µ = 1 ist x eine Konvexkombination der beiden Punkte
p0 , y ∈ K. Wir erhalten aus der Induktionsverankerung die Behauptung.
Dies war zu zeigen.
Satz 12.5. Für jede Menge M ⊆ Rn gilt:
)
( k
k ∈ N und p , . . . , p ∈ M ,
X
0
k
P
,
kon(M ) =
λ i pi λ0 , . . . , λk ≥ 0 mit ki=0 λi = 1
i=0
d.h. die konvexe Hülle kon(M ) ist gleich der Menge L der Konvexkombinationen von
je endlich vielen Punkten aus M .
P
P
0 0
Beweis. Wir zeigen, dass L konvex ist. Seien x := ki=0 λi pi und x0 := m
i=0 λi pi
0
0
0
Konvexkombinationen von p0 , . . . , pk ∈ M und p0 , . . . , pm ∈ M . Zu zeigen ist [x, x ] ⊆
L. Sei
y := λx + λ0 x0 ∈ [x, x0 ]
mit λ, λ0 ≥ 0 und λ + λ0 = 1. Es gilt:
y = λx + λ0 x0 = λ
m
X
i=0
λ i pi + λ 0
m
X
i=0
λ0i p0i
1. Konvexe Mengen
135
P
Pm 0
0
mit λ m
i=0 λi + λ
i=0 λi ≥ 0. Damit ist y eine Konvexkombination der k + m
Punkten p0 , . . . , pk , p00 , . . . , p0m ∈ M , so dass y ∈ L gilt.
Def inition 12.6 (Polyeder, Polygon). Ein (konvexes) Polyeder P ⊆ Rn ist die konvexe Hülle endlich vieler Punkte kon(p0 , p1 , . . . , pk ). Polyeder im R2 heißen Polygone.
Im Englischen nennt man ein (konvexes) Polyeder Polytope. Ein Simplex ist ein einfaches Polyeder:
Abbildung 1. Simplices
s
s
s
s
s
0-Simplex
s
1-Simplex
s
s
2-Simplex
s
s
3-Simplex
Def inition 12.7 (Simplex). Die konvexe Hülle kon(p0 , . . . , pk ) von k + 1 Punkten
p0 , . . . , pk ∈ Rn heißt k-Simplex, wenn p1 − p0 , p2 − p0 , . . . , pk − p0 linear unabhängig
sind.
Die lineare Unabhängigkeit der Differenzvektoren ist unabängig von der Reihenfolge
der Punkte p0 , p1 , . . . , pk . Wir hatten in Definition 3.6 auf Seite 31 zu einem affinen
Teilraum A den Richtungsraum
R(A) = {p − a0 | p ∈ A } = {p − q | p, q ∈ A }
(mit festem a0 ∈ A) eingeführt. Der Richtungsraum ist ein von der Wahl des Punktes
a0 unabhängiger Vektorraum.
Def inition 12.8 (Dimension affiner Untervektorraum). Die Dimension eines affinen Untervektoraums A ist die Dimension seines Richtungsraums, also dim A :=
dim R(A).
Def inition 12.9 (Affine Hülle). Zu einer Teilmenge M ⊆ Rn ist die affine Hülle
\
aff(M ) :=
A.
M ⊆A
A affiner Teilraum
Die affine Hülle aff(M ) von M ist der kleinste affine Teilraum, der M umfasst.
Def inition 12.10 (Affin unabhängig). Die k + 1 Punkte p0 , . . . , pk ∈ Rn heißen affin
unabhängig, wenn p1 − p0 , p2 − p0 , . . . , pk − p0 linear unabhängig sind oder,äquivalent,
wenn dim aff(p0 , . . . , pk ) = k gilt.
Def inition 12.11 (Halbraum, Polyhedron). Sei ϕ : Rn → R eine lineare Abbildung
und b ∈ R. Eine Teilmenge
H = {x ∈ Rn | ϕ(x) ≥ b } ⊆ Rn
136
heißt (affiner) Halbraum. Ein Polyhedron P ⊆ Rn ist der Durchschnitt endlich vieler
Halbräume. Die Dimension des Polyhedron P 6= ∅ ist
∃ affin unabhängige
dim P := dim aff(P ) = max k ∈ N .
p0 , p 1 , . . . , p k ∈ P
Abbildung 2. Halbraum
p p pp
ppp ppp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppp pp
p
p
p
p
p p pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp
p pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp pp
p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp p
pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp p
p pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp p
p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp
pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp p
pp ϕ(x)
ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp≥
p p p p p pbp p p p
p pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp pp p
pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp
pp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pp
pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp pp p p
p pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp pp p
p pp ppp ppp ppp pp pp p
p
ϕ(x) = b
Eine lineare Abbildung ϕ : Rn → R ist gegeben durch ϕ(x) = ax für einen
Zeilenvektor a ∈ Rn . Ein Polyhedron P können wir schreiben als Lösungsmenge eines
linearen Ungleichungssystems Ax ≥ b:
P = {x ∈ Rn | Ax ≥ b } .
Def inition 12.12 (Extremalpunkt, Ecke). Sei K ⊆ Rn eine konvexe Menge. Ein
Punkt p ∈ K heißt Extremalpunkt von K, falls kein q ∈ Rn \ {0} mit p ± q ∈ K
existiert. E(K) bezeichne die Menge der Extremalpunkte von K. Die Extremalpunkte
eines Polyhedron P nennt man Ecken von P .
Folgende, äquivalente Charakterisierungen der Extremalpunkte beweist man durch
elementares Nachrechnen:
Fakt 12.13. Sei K ⊆ Rn eine konvexe Menge. Dann sind folgende Aussagen äquivalent:
a) p ∈ E(K), d.h. p ist ein Extremalpunkt von K.
b) Es gibt keine Strecke [p1 , p2 ] ⊆ K mit p ∈ [p1 , p2 ] \ {p1 , p2 }.
c) K \ {p} ist konvex.
Lemma 12.14. Sei P := kon(p0 , . . . , pk ) ⊆ Rn ein Polyeder mit paarweise verschiedenen p0 , . . . , pk . Genau dann ist pk keine Ecke, wenn das Polyeder die konvexe Hülle
der übrigen Punkte ist, also P = kon(p0 , . . . , pk−1 ).
Beweis. Wir zeigen folgende Äquivalenz:
pk ∈
/ E(P )
Es gilt:
⇐⇒
pk ist Konvexkombination von p0 , . . . , pk−1
1. Konvexe Mengen
137
Abbildung 3. Ecke
−q
p p p pp pp ppp ppp ppp pppp pppp ppppp pppp ppp ppp pp p
I psp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp p
pppppppppppppppppppppppp
p ppp ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp ppp pp
p p p p p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp p
ppp ppppp ppppp pppppR
ppppppppppppppppp
ppp ppp ppp ppp ppp ppppp ppppp ppppp ppppp ppppp +q
p p p p p p p p p p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp p
pp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp ppp pp
p ppK
pp ppp ppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pp p
p pp pp ppp ppp ppp pp p
P
⇐“ Sei pk = k−1
Wegen pk ∈
/ {p0 , . . . , pk−1 } gilt
i=0 λi pi eine Konvexkombination.
”
P
λi < 1 für alle i, so dass aufgrund k−1
λ
=
1
mindestens
zwei der λi -Werte
i=0 i
ungleich Null sind. Seien o.B.d.A. λ0 , λ1 6= 0. Mit := min(λ0 , λ) gilt
pk ± (p0 − p1 ) ∈ P,
P
denn k−1
i=1 λi pi ± p0 ± p1 ist eine Konvexkombination von Punkten in P .
Folglich gilt pk ∈
/ E(P ).
⇒“ Sei pk ∈
/ E(P ). Es existiert ein q ∈ Rn \ {0} mit pk ± q ∈ P . Seien pk + q =
Pk−1
Pk−1 0
”
i=0 λi pi und pk − q =
i=0 λi pi Konvexkombinationen. Dann ist
k−1
(pk + q) + (pk − q) X λi + λ0i
=
pi
pk =
2
2
i=0
ebenfalls eine Konvexkombination von p0 , . . . , pk−1 ∈ P , so dass
kon(p0 , . . . , pk ) = kon(p0 , . . . , pk−1 ).
Mit P = kon(p0 , . . . , pk ) folgt die Behauptung.
Dies war zu zeigen.
Sei P := kon(p0 , . . . , pk ) ⊆ Rn ein Polyeder mit paarweise verschiedenen p0 , . . . , pk .
Nach Lemma 12.14 gilt
pk ∈ E(P )
⇐⇒
P 6= kon(p0 , . . . , pk−1 ),
so dass E(P ) ⊆ {p0 , . . . , pk } ist. Man kann alle Nicht-Extremalpunkte aus der Menge
{p0 , . . . , pk } entfernen, ohne die konvexe Hülle P zu verändern. Wir erhalten folgenden
Satz, der auf Minkowski1 zurückgeht:
Korollar 12.15 (Satz von Minkowski). Jedes Polyeder P ⊆ Rn ist die konvexe Hülle
seiner Ecken, kurz P = kon(E(P )).
Die Darstellung eines Polyeders als konvexe Hülle seiner Ecken ist minimal, kanonisch und explizit. Ziel ist es im folgenden, eine kanonische, explizite Darstellung
für Polyhedra zu finden. In Übungsaufgabe 13.2 wird gezeigt:
1Das Interesse von Hermann Minkowski (1864–1909) für konvexe Geometrie und lineare Un-
gleichungen kam aus der Zahlentheorie. Er formuliert und bewies zahlreiche wichtige Resultate für
konvexe Menge und deren Volumen. Mit seinem Buch Geometrie der Zahlen“ (1896) begründete er
”
das gleichnamigen Gebiet der Mathematik.
138
Abbildung 4. Zerlegung in Simplices
p ppp ppp ppp ppp pp pp p p p p
pp pp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp pppp pppp ppp ppp ppp pp pp pp pp
p pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp p
ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppp p
ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp p
pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp p
p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp
p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp pp p p
ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp pp pp p p
p ppp ppp ppp ppp ppp ppp ppp ppp ppp pp pp pp p p
ppp pp pp p p p
Satz 12.16. Jedes Polyeder P ist die disjunkte“ Vereinigung von endlich vielen
”
Simplices S1 , S2 , . . . , St mit E(Si ) ⊆ E(P ). Disjunkt“ bedeutet, dass dim(Si ∩ Sj ) <
”
dim P für i 6= j.
Abbildung 4 zeigt ein Beispiel zur Aussage des Satzes 12.16: Der Polyeder ist die
disjunkte Vereinigung dreier Simplices.
Der Beweis zu folgendem Satz, wonach ein Polyeder ein Polyhedron ist, wird
ebenfall in Übungsaufgabe 13.2 geführt:
Satz 12.17. Jedes Polyeder P ⊆ Rn ist der Durchschnitt endlich vieler Halbräume
und ist somit ein Polyhedron.
Abbildung 5. Seite eines Polyhedron
H=
H=
H+
p pp pp p p H −
pp pp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp pppp ppp ppp pp p p
pppppppppppppppppppp
ppp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp pppp ppp pp pp p p
ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp p
ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp
pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp p
pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp P
ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppp pp p
p pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp p
p pp pp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp p
p p pp ppp ppp ppp p
H−
+
H
ppp ppp ppp pppp pppp ppppp pppp ppp ppp pp p
p
p
p
p
p
p
pp pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp p p
ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp ppp pp
ppppppppppppppppppppppppppppp
ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp ppp pp p
pppppppppppppppp
ppp pp ppp ppp ppp ppp ppp ppp ppp ppp P
ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp ppp pp
p pp pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp p
p p p pp ppp ppp ppp ppp ppp ppp pp p
p pp p
Def inition 12.18 (Seite eines Polyhedron). Sei P ⊆ Rn ein Polyhedron und H =
{x ∈ Rn | ϕ(x) ≥ b } ein Halbraum. Dann ist P ∩ H eine Seite von P zur Stützebene
H = := {x ∈ Rn | ϕ(x) = b }, falls P ∩ H ⊆ H = .
Der Polyhedron P und die leere Megne ∅ sind (uneigentliche) Seiten von P zur
Stützebene Rn . P ∩ H = ist genau dann eine Seite von P zur Stützebene H = , wenn
P ⊆ H + := {x ∈ Rn | ϕ(x) ≥ b }
oder
P ⊆ H − := {x ∈ Rn | ϕ(x) ≤ b } ,
1. Konvexe Mengen
139
d.h. H = schneidet P nicht im Inneren von P . Da ein Polyhedron der (endliche)
Durchschnitt von Halbräumen ist, können wir jede Seite als endlichen Durchschnitt
von Halbräumen darstellen:
Lemma 12.19. Jede Seite S eines Polyhedron P ist selbst ein Polyhedron. Jede Seite
von S ist ebenfalls eine Seite von P .
Seiten der Dimension k bezeichnet man als k-Seite des Polyhedron P . Wir nennen
1-Seiten Kanten und (dim P − 1)-Seiten Flächen des Polyhedron P . Die Ecken E(P )
des Polyhedron sind die 0-Seiten.
Satz 12.20. Sei P ⊆ Rn ein beschränkter Polyhedron. Dann ist P ein Polyeder mit
P = kon(E(P )).
Beweis. Die Behauptung ist trival für P = ∅ und k = 0 Wir beweisen die Aussage
des Satzes für die übrigen Fälle durch Induktion über k := dim P ≥ 1:
• Induktionsbasis k = 1: Es gilt P = [p1 , p2 ], E(P ) = {p1 , p2 } und P =
kon(p1 , p2 ).
• Induktionsschluß von k − 1 auf k: Der Polyhedron P habe die (k − 1)-Seiten
P1 , . . . , Pm . Der Polyhedron P hat m Flächen P1 , . . . , Pm , wenn er der Durchschnitt von m Halbräumen ist und kein Halbraum redundant ist. Wir setzen
zunächst voraus, dass
P = kon(P1 , . . . , Pm ).
(26)
Dann gilt:
[
[
m
m
(26)
Ind.Ann.
P = kon
Pi
= kon
kon(E(Pi ))
i=1
i=1
In Verbindung mit Übungsaufgabe 13.3 folgt, da die Ecken von P genau die
Ecken der Pi sind:
[
m
P = kon
E(Pi ) = kon(E(P )).
i=1
Zu zeigen bleibt Gleichung (26), d.h. für alle p ∈ P ist p ∈ kon
Sm
Abbildung 6. Schiefe Seiten Hi , Hj
p p p p p pp
ppp ppp ppp ppp pppp pppp pppp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp
p
p
p
p
p
p
p
p
p
p
p
p
p
p
ppp ppp ppp pppp pppp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp
pppppppppppppppppp
ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pppsppp ppp ppp ppp ppp p
pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp
p p pp pp pp p
ppp ppp pppp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp ppp pp p
p
p
p
p
p
p
p
j
ppp ppp pppp pppp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp ppp ppH
ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp sppp ppp ppp ppp ppp ppppppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pppp pp pp
pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp p
Hi
P unbeschränkt
Für den Fall p ∈
Sm
i=1 Pi
trifft dies offenbar zu, so dass im weiteren
p∈P \
m
[
i=1
Pi
i=1 Pi
.
140
T
sei. Der Polyhedron ist der Durchschnitt P = m
j=1 Hj von m ≥ 2 paarweise
verschiedenen Halbräumen. Weil P beschränkt ist, gibt es Hi , Hj , die schief
zu einander liegen (vergleiche Abbildung 6, der rechte Fall ist nicht möglich).
Es existiert eine Gerade G durch p, so dass [p0 , p1 ] := G ∩ P beschränkt ist.
Aus
[
m
p ∈ kon(p0 , p1 ) ⊆ kon
Pi = kon(P1 , . . . , Pm )
i=1
Dies war zu zeigen.
Wir wollen Satz 12.20 auf unbeschränkte Polyhedra erweitern. Die Gleichung (26)
gilt für beliebige Polyhedra bis auf die Sonderfälle
aff
• P = Rn (Rn hat keine eigentliche Seite) und
aff
• P = H für einen Halbraum H (H hat genau eine eigentliche Seite H = ).
aff
Dabei bezeichnet =“ affin ismorph:
”
Def inition 12.21 (Affin isomorph). Zwei Teilmenge M, M 0 ⊆ Rn sind affin isoaff
morph, M = M 0 , wenn es eine affine Isomorphie ψ : aff(M ) → aff(M 0 ) mit ψ(M ) =
M 0 gibt.
Sei aff(M ) = b + V mit Untervektorraum V ⊆ Rn und b ∈ Rn . Die Abbildung ψ :
b+V → b0 +V 0 ist ein affiner Isomorphismus, falls es einen Vektorraum-Isomorphismus
ϕ : V → V 0 mit ψ(b + x) = b0 + ϕ(x) gibt.
Lemma 12.22. Sei P ⊆ Rn ein
mit n := dim P , P 6= Rn und P kein
Sm Polyhedron
Halbraum. Dann gilt P = kon i=1 Pi für die (n − 1)-Seiten Pi von P .
Abbildung 7. Gerade G durch p
p0
p pp ppp pp p
ppppppp
ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp ppp pp p
p
p
p
p0 p pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp p
pppppppppppppppppppppp
prp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp p
ppp pp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppprppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp ppp pprp p1
ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppppppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp
pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp p
ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp rp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp
ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp
ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp rp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp
pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp ppppppppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp
ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp
p p p p p p p p p p p p p p p p rp p p p p p p p p p p p p p p p p p p p p p
p1
S
Beweis. Zu p ∈ P \ m
0 , p1] := G ∩ P
i=1 Pi gibt es eine Gerade G durch p, so dass
S[p
m
beschränkt ist (siehe Abildung 7). Aus p ∈ kon(p0 , p1 ) ⊆ kon i=1 Pi folgt die
Behauptung.
Es gilt:
Satz 12.23. Sei P ⊆ Rn ein Polyhedron
mit n := dim P , P 6= Rn und P kein
Sk
Halbraum. Dann gilt P = kon j=1 Hj für die eigentlichen Seiten H1 , . . . , Hk von
P , die affine Räume bzw. Halbräume sind (Ecken sind Hj der Dimension 0).
1. Konvexe Mengen
141
Beweis. Wir zeigen die Aussage durch Induktion über n. Die Verankerung für n = 0
ist trivial. Sei n ≥ 1. Es gilt für die (n − 1)-Seitenflächen P1 , . . . , Pm von P :
Lemma 12.22
P
⊆
[
[
m
k
Ind.Ann.
kon
Pi
⊆ kon
Hj .
i=1
j=1
Entweder ist die Induktionsvoraussetzung anwendbar auf Pi oder Pi = Hj für ein j.
Die Seitenfläche der Dimension maximal n − 2 von P sind genau die Seitenfläche der
Dimension höchstens n − 2 der P1 , . . . , Pm .
Abbildung 8. Halbraum als Konvexe Hülle von Halbstrahlen
p p pp
ppp ppp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppp pp
p
p
p
p
p p pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp
p pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp pp
p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp p
p p p p p p p p p p p p p p p p p p p p p pp
] p ppp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp pp p
pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp 3
p p p pp p p p p p
pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp ppp p
p pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp p
pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp
pp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp +
pp pp pp pp pp pp pp pp pp
p p p p p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp p
p ppp ppp ppp ppp ppp ppp H
pp ppp ppp ppp ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp pppp ppp ppp pp
p pp pp pp pp pp pp pp pp pp pp pp pp pp p
^ pp ppp pppp pppp pppp ppp ppp pp p p
p
H=
Def inition 12.24 (Halbgerade). Eine Teilmenge G ⊆ Rn heißt Halbgerade, falls es
a, a0 ∈ Rn gibt mit
G = {a0 + λa | λ ∈ R≥0 } .
Jeder Halbraum im Rn ist die konvexe Hülle von n + 1 Halbgeraden (vergleiche Abbildung 8).
Korollar 12.25. Eine Teilmenge P ⊆ Rn ist genau dann ein Polyhedron, wenn P
die konvexe Hülle von endlich vielen Punkten und Halbgeraden ist.
Die Zerlegung eines Polyhedron P ⊆ Rn in ein Polyeder P 0 und einen sogenannten
Kegel C
P = P0 + C
(vergleiche Abbildung 9) ist eindeutig, sofern E(P ) = E(P 0 ) Es gilt dann für C:
n Aus p ∈ P folgt p + λx ∈ C
C := x ∈ R .
für alle λ ∈ R≥0
Wir beschäftigen uns mit Kegeln in Abschnitt 3.
142
Abbildung 9. Zerlegung Polyhedron in Polyeder und Kegel
-
=
+
-
2. Funktionen über konvexen Mengen
In diesem Abschnitt betrachten wir konvexe (konkave, lineare) Funktionen über konvexen Menge.
Def inition 12.26 (Konvexe Funktion). Sei K ⊆ Rn eine konvexe Menge. Eine
Funktion f : K → R heißt konvex, wenn für alle p, q ∈ K und λ ∈ [0, 1] gilt:
f (λp + (1 − λ)q) ≤ λf (p) + (1 − λ)f (q).
(27)
Induktiv folgt aus Eigenschaft (27): Falls f eine konvexe Funktion ist, gilt für jede
Konvexkombination der Punkte p0 , . . . , pk ∈ K:
X
X
k
k
f
λ i pi ≤
λi f (pi ).
i=0
i=0
Im Fall K ⊆ R gilt für konvexe Funktionen, dass wie in Abbildung 10 die Funktionswerte nicht oberhalb der Verbindungsstrecke [p, q] liegen.
Abbildung 10. Konvexe Funktion
f
p
r
r
q
Wir wollen eine konvexe Funktion f über einer konvexen Menge K minimieren.
Ein Punkt p heißt lokale Minimalstelle, wenn in einer -Umgebung
U (p) := {q ∈ K : kp − qk ≤ }
um p die Funktionswerte f (p) ≤ f (q) sind. Für konvexe Funktionen ist jede lokale
Minimalstelle p eine globale Minimalstelle, d.h. f (p) ≤ f (q) für alle q ∈ K:
2. Funktionen über konvexen Mengen
143
Satz 12.27. Sei K ⊆ Rn eine konvexe Menge und f : K → R eine konvexe Funktion.
Dann ist jede lokale Minimalstelle von f globale Minimalstelle.
Beweis. Sei p ∈ K eine lokale Minimalstelle. Dann existiert ein ∈ (0, 1), so dass
die Funktionswerte der Punkte in der -Umgebung U (p) nicht kleiner als f (p) sind:
∀q ∈ U (p) :
f (p) ≤ f (q).
(28)
Angenommen, p sei keine gobale Minimalstelle von f , d.h. es gäbe ein y ∈ K mit
f (y) < f (p). Betrachten wir die Punkte der Verbindungsstrecke [p, y] ⊆ K, die in der
-Umgebung U (p) liegen. Für λ ∈ (0, ) gilt, weil f eine konvexe Funktion ist:
f (λp + (1 − λ)y) ≤ λf (p) + (1 − λ) f (y) < λf (p) + (1 − λ)f (p) = f (p),
|{z}
<f (p)
so dass ein Punkte q ∈ [p, y] ∩ U (p) mit f (q) < f (p) existiert — Widerspruch zu
(28).
Aus Satz 12.27 folgt für eine konkave Funktion f , dass eine lokale Maximalstelle von
f globale Maximalstelle ist:
Def inition 12.28 (Konkave Funktion). Sei K ⊆ Rn eine konvexe Menge. Eine
Funktion f : K → R heißt konkav, wenn −f eine konvexe Funktion ist.
In der linearen Programmierung versuchen wir, eine lineare Funktion f über einem
konvexen Polyeder zu optimieren (minimieren oder maximieren). Da lineare Funktionen sowohl konvex als auch konkav sind, hat man die globale Extremalstelle gefunden,
wenn es sich um eine lokale Optimalstelle handelt.
Satz 12.29. Sei P ⊆ Rn ein Polyeder und f : P → R eine konvex Funktion. Dann
gilt
sup f (p) = max f (p),
p∈E(P )
p∈P
d.h. f nimmt das Maximum an einer Ecke an.
Beweis. Angenommen, es gäbe einen Nichtecke y ∈ P \ E(P ) mit
f (y) > max f (p).
p∈E(P )
Nach Korollar 12.15 ist der Punkt y eine Konvexkombination von Ecken p0 , . . . , pk
P
des Polyeders, d.h. y = ki=0 λi pi mit λi 6= 0. Weil die Funktion f konvex ist und
Pk
i=1 λ = 1 gilt, erhalten wir folgende Abschätzung:
X
X
k
k
f (y) = f
λ i pi ≤
λi f (pi ) ≤ max f (pi ) ≤ max f (p)
i=0
i=0
i
p∈E(P )
Dies ist ein Widerspruch zur Annahme f (y) > maxp∈E(P ) f (p).
Weil eine lineare Funktion sowohl konvex als auch konkav ist, folgt aus Satz 12.29,
dass beim Optimieren einer linearen Funktion über einem Polyeder eine optimale
Ecke existiert:
144
Korollar 12.30. Sei P ⊆ Rn ein Polyeder und f : Rn → R eine lineare Funktion.
Dann gilt:
a) sup f (P ) = maxp∈E(P ) f (p).
b) inf f (P ) = minp∈E(P ) f (p).
Für Polyhedra gilt ein entsprechendes Resultat, dass wir in Kapitel 13 (Satz 13.5
auf Seite 156) beweisen werden:
Korollar 12.31. Sei P ⊆ Rn ein Polyhedra mit E(P ) 6= ∅ und f : Rn → R eine
lineare Funktion. Dann gilt
a) sup f (P ) = maxp∈E(P ) f (p), sofern sup f (P ) < +∞.
b) inf f (P ) = minp∈E(P ) f (p), sofern inf f (P ) > −∞.
Der Satz von Minkowski, Korollar 12.15 auf Seite 137, wonach ein Polyeder die
konvexe Hülle seiner Ecken ist, gilt nicht nur für Polyeder, sondern für beliebige konvexe, abgeschlossene, beschränkte Mengen. Analog zu Satz 12.29 nimmt eine konvexe
Funktion f ihr Maximum an einer Extremalstelle an, unter der Voraussetzung, dass
die konvexe Menge Extremalpunkte hat und f beschränkt ist:
Satz 12.32. Sei K ⊆ Rn eine konvexe, abgeschlossene, beschränkte Menge mit
E(K) 6= ∅ und f : K → R eine konvexe Funktion. Dann gilt:
a) K = kon(E(K)).
b) sup f (K) = maxp∈E(K) f (p), sofern sup f (K) < +∞.
Abbildung 11. Trennungslemma
H=
ϕ(x) ≤ ϕ(x0 )
q
r
w
y
p p p p p pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp
p pp pp pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp
pp pp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp
p pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp
ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp K
pppppppppppppp
ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp
spppppx
pp pp ppp ppp0ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp
pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp
p pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp
p p pp pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp
r
Zum Abschluß formulieren und beweisen wir das sogenannte Trennungslemma,
das später zu Dualitätsbeweisen verwendet wird:
Satz 12.33 (Trennungslemma). Sei K ⊆ Rn eine konvexe, abgeschlossene Menge
und q ∈ Rn \ K ein Punkt außerhalb von K. Dann gibt es eine lineare Funktion
ϕ : Rn → R mit ϕ(x) > ϕ(q) für alle x ∈ K.
3. Kegel und Farkas’ Lemma
145
Beweis.
Sei h·, ·i das Standardskalarprodukt und k·k die euklidsche Norm, d.h. kxk =
p
hx, xi. Die Funktion x 7→ kx − qk nimmt ihr Minimum für x ∈ K im nächsten“
”
K-Punkte x0 zu q an (vergleiche Abbildung 11). Setze:
ϕ(x) := hx, x0 − qi = (x0 − q)T x.
Sei H = := {x ∈ Rn | ϕ(x) = ϕ(x0 ) } wie in Abbildung 11. Der Richtungsraum R(H = )
der Hyperebene H = ist orthogonal zu x0 − q. Es gilt für den vorgegebenen Punkt
q ∈ Rn \ K:
hq, x0 − qi = ϕ(q) ≥ ϕ(x0 ) = hx0 − q + q, x0 − qi = kx0 − qk2 + hq, x0 − qi .
Angenommen, es existierte ein y0 ∈ K mit ϕ(y) < ϕ(x0 ). Zu Vereinfachung der
Notation sei q := 0. Weil K konvex ist, gilt [x0 , y0 ] ⊆ K, d.h. zu jedem λ ∈ [0, 1] gilt
y(λ) := x0 + λ(y0 − x0 ) ∈ K.
Wir zeigen, dass die Norm von y := y(λ) von x0 weg, also mit zunehmendem λ,
zunächst abnimmt, was der Wahl von x0 widerspricht. Es ist:
f (λ) := kx0 k2 − kyk2
= hx0 , x0 i − hy, yi
= −λ2 hy0 − x0 , y0 − x0 i + 2λ(hx0 , x0 i − hx0 , y0 i)
Die Ableitung f 0 der Funktion f : R → R an der Stelle λ = 0 liefert:
f 0 (0) = 2(hx0 , x0 i − hx0 , y0 i).
Es existiert ein > 0, so dass für y = y(λ) mit 0 < λ < gilt:
kyk < kx0 k
Dies ist ein Widerspruch zur Wahl von x0 , so dass unsere Annahme, es gäbe ein
y0 ∈ K mit ϕ(y) < ϕ(y0 ) falsch ist.
Im Beweis zum Trennungslemma ist H = Stützebene durch x0 , das auf dem Rand
Rd(K) der Menge K liegt. Zu jedem x0 ∈ Rd(K) gibt es eine Stützebene mit x0 ∈ H =
und K ⊆ H + .
Zur Vorbereitung des Beweises zu Farkas’ Lemma führen wir die Begriffe des Kegels
und Polydehrals ein und weisen Eigenschaften nach.
Def inition 12.34 (Kegel, Polyhedral). Ein (konvexer) Kegel (Cone) ist eine nichtleere Teilmenge C ⊆ Kn , so dass mit c1 , c2 ∈ C auch λ1 c2 + λ2 c2 ∈ C für alle
λ1 , λ2 ∈ R≥0 gilt. Ein Kegel der Form C = {x | Ax ≤ 0 } heißt polyhedral.
Ist (Ci )i∈I eine Familie von Kegeln, dann ist auch der Durchschnitt
Kegel.
T
i∈I
Ci ein
146
Abbildung 12. Beispiel Kegel
x2
6
pp pppp pp
pp pp ppppp ppppp ppppp ppppp ppppp pppp pp
pp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp ppp p
pp pp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp pp p
p ppp ppp ppp ppp ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppp pp
pp pp ppppp ppppp ppppp ppppp ppppp ppppp ppppp C
p p p p p p p p p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp p
ppp ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp pppp pppp pppp pppp pppp pp
pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp p p p p p
p ppp ppp ppp pp pp pp pp pp pp p p p p p
- x1
0
Def inition 12.35 (Endlich erzeugter Kegel). Zu einer Teilmenge M ⊆ Rn ist
\
cone(M ) :=
C.
C⊇M
C Kegel
der kleinste Kegel, der M umfasst.
In Übungsaufgabe 15.1 zeigen wir:
Satz 12.36. Für jede Menge M ⊆ Rn gilt:
)
( k
X
k ∈ N und p0 , . . . , pk ∈ M ,
cone(M ) :=
λ i pi .
λ0 , . . . , λ k ≥ 0
i=0
Vergleicht man diese Darstellung mit der einer konvexen Menge aus Satz 12.5 auf
Seite 134, so folgt cone(M ) = R≥0 · kon(M ).
Lemma 12.37. Der Durchschnitt von beliebig vielen, endlich erzeugten Kegel ist
endlich erzeugt.
Beweis. Der Durchschnitt von Polyedern ist wieder ein Polyeder, sofern er nicht leer
ist. Der Durchscnitt von Kegel ist nie leer, denn er enthält den Nullpunkt.
Def inition 12.38 (Dualer Kegel). Der duale Kegel zu einem Kegel C ⊆ Rn ist
C ∗ := y ∈ Rn xT y ≥ 0 für alle x ∈ C .
C ∗ ist ein Kegel, denn zu y1 , y2 ∈ C ∗ gilt für x ∈ C und λ1 , λ2 ≥ 0:
xT (λ1 y1 + λ2 y2 ) = λ1 xT y1 +λ2 xT y2 ≥ 0 + 0 = 0,
| {z }
| {z }
≥0
so dass aus y1 , y2 ∈
C∗
folgt λ1 y1 + λ2 y2 ∈
≥0
C ∗.
147
Abbildung 13. Beispiel Kegel und dualer Kegel
6
0
C∗
p p p pp pp pp ppp
ppp ppp ppp pppp pppp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp
p
p
p
p
p
p
p
p
p
p p p pp pp pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp
pqpqpp ppp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp
p p p pp pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pppC
ppppppppppppppppp
p p pp pp ppp ppp ppp ppp ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp
p p pp pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp
p p pp pp ppp ppp ppp ppp ppp ppp ppp ppp
p p p pp pp ppp
Beispiel 12.39. Abbildung 13 zeigt einen Kegel C und den dualen Kegel C ∗ . Seien
Csub , C ⊆ R2 Kegel mit Csub ⊆ C, dann gilt für die dualen Kegel die umgekehrte
∗
Inklusion Csub
⊇ C ∗ . Falls C = R2 , dann besteht der duale Kegel nur aus dem
Ursprung C ∗ = {0}.
Wir haben im Kapitel 7 über lineare Codes gesehen, dass der duale des dualen
Codes C ⊥ der Ausgangscode C ist. Die gleiche Aussage trifft auch auf den dualen
eines dualen Kegels C ∗ zu, sofern C abgeschlossen ist:
Satz 12.40. Sei C ⊆ Rn ein abgeschlossener Kegel. Dann gilt (C ∗ )∗ = C.
Beweis. Es gilt:
C ∗ = y ∈ Rn
(C ∗ )∗ = z ∈ Rn
T
x y ≥ 0 für alle x ∈ C
T
y z ≥ 0 für alle y ∈ C ∗
Nach Definition gilt y T x = xT y ≥ 0. für alle x ∈ C und y ∈ C ∗ , so dass C ⊆ (C ∗ )∗ .
Zu zeigen bleibt die Inklusion (C ∗ )∗ ⊆ C. Angenommen, diese Inklusion sei falsch,
d.h. es existiert ein z ∈ (C ∗ )∗ mit z ∈
/ C. Sei
x ∈ Rn ϕ(x) := uT x = u0
die Trennungsebene zu z und C. Gemäß Trennungslemma, Satz 12.33 auf Seite 144,
gilt:
• ϕ(z) = uT z ≤ u0 und
• ϕ(x) = uT x ≥ u0 für alle x ∈ C.
Dann ist ϕ(x) für x ∈ C nach unten beschränkt. Die Abbildung ϕ(x) nimmt ihr
Minimum 0 an, und zwar an der Stelle x = 0. Die Abschätzung
uT z ≤ u0 ≤ uT x = ϕ(x)
für alle x ∈ C
impliziert uT z ≤ 0 (wegen ϕ(0) = 0 und 0 ∈ C). Aus uT x ≥ 0 für alle x ∈ C folgt
u ∈ C ∗ . Wir erhalten den Widerspruch z ∈
/ (C ∗ )∗ , denn aufgrund
uT z < 0
ist die Forderung y T z ≥ 0 nicht erfüllt für alle y ∈ C ∗ .
Satz 12.41. Sei C ⊆ Rn ein abgeschlossener Kegel. Dann gilt:
148
a) C ist genau dann endlich erzeugt, wenn C ∗ endlich erzeugt ist.
b) C ist genau dann endlich erzeugt, wenn C polyhedral.
Beweis. Zu x ∈ R sei y1 , . . . , yn−1 eine Basis von span(x)⊥ = (xR)⊥ . Der duale
Kegel
cone(x)∗ = cone(x, y1 , . . . , yn−1 )
ist endlich erzeugt.
Abbildung 14. Basis von (xR)⊥
x
0
(xR)⊥
a) Sei C = cone(x1 , . . . , xk ) endlich erzeugt. Dann gilt
C ∗ = cone(x1 , . . . , xk )∗ =
k
\
cone(xi )∗ ,
(29)
i=1
denn
X
k
i=1
λi xi
T
·y =
k
X
λi xTi y ≥ 0
i=1
folgt xTi y ≥ 0 für alle i und umgekehrt. Also ist der duale Kegel C ∗ der
Durchschnitt von endlich erzeugten Kegeln und nach Übungsaufgabe 15.3
somit endlich erzeugt.
Wir haben gezeigt, dass mit C ebenfalls der duale Kegel C ∗ endlich
erzeugt ist. Weil C nach Voraussetzung abgeschlossen ist, wenden wir Satz
12.40, also (C ∗ )∗ = C, an und erhalten die Rückrichtung der Behauptung.
b) Angenommen, C = {x | Ax ≤ 0 } sei Polyhedral. Bezeichne aT1 , . . . , aTm die
Zeilenvektoren der Matrix A. Aufgrund von Gleichung (29) gilt:
C=
m
\
cone(aTi )∗ = cone(aT1 , . . . , aTm )∗ .
i=1
Nach Übungsaufgabe 15.3 ist C als Durchschnitt von endlich erzeugten Kegeln ebenfalls endlich erzeugt.
149
Sei umgekehrt C = cone(x1 , . . . , xk ) ein endlich erzeugter Kegel. Nach
Satz 12.40 gilt:
∗
∗
C = cone(x1 , . . . , xk )∗ = y y T xi ≥ 0 für i = 1, 2, . . . , k
.
|
{z
}
=C ∗
C ∗ polyhedral.
Also ist der endlich erzeugte, duale Kegel
Nach Satz 12.40
∗
folgt: Falls C endlich erzeugt ist, dann ist ebenfalls C = (C ∗ )∗ endlich
erzeugt und polyhedral. Dies war zu zeigen.
Satz 12.42 (Farkas’ Lemma). Für A ∈ Mm,n (R) und c ∈ Rm sind folgende Aussagen
äquivalent:
a) Für alle x ∈ Rm mit Ax ≥ 0 gilt cT x ≥ 0.
b) Es existiert ein y ∈ Rm mit y ≥ 0 und cT = y T A.
Beweis. Sei C der von den Zeilenvektoren aT1 , . . . , aTm der Matrix A erzeugten Kegel.
Gemäß Satz 12.36 gilt:
(m
)
X
C := cone(aT1 , . . . , aTm ) =
λi aTi λ1 , . . . , λm ≥ 0 .
i=1
aTi x
Da die Forderung Ax ≥ 0 und
≥ 0 für i = 1, . . . , m gleichwertig sind, haben wir
n
für alle x ∈ R folgende Äquivalenz:
Ax ≥ 0
⇐⇒
x ∈ C ∗.
Damit folgt:
• Aussage a) ist äquivalent zu c ∈ (C ∗ )∗ .
• Aussage b) ist äquivalent zu c ∈ C.
Weil C ein abgeschlossener Kegel ist, erhalten wir C = (C ∗ )∗ aus Satz 12.40, d.h. beide
Aussagen sind gleichwertig.
Wir folgern aus Farkas’ Lemma, Satz 12.42, die nachstehende Variante:
Korollar 12.43 (Farkas’ Lemma – Variante I). Für A ∈ Mm,n (R) und b ∈ Rn sind
folgende Aussagen äquivalent:
a) Es existiert ein x ≥ 0 mit Ax ≤ b.
b) Für alle y ∈ Rm mit y T A ≥ 0 gilt y T b ≥ 0.
Beweis. Setze Aext := (A, Im ) ∈ Mm,m+n (R). Folgende Aussagen sind äquivalent,
denn Ax ≤ b kann man gleichwertig schreiben als Ax + s = b mit s ≥ 0:
a) Es existiert ein x ∈ Rn mit Ax ≤ b.
b’) Es existiert ein xext ≥ 0 mit Aext xext = b.
Wir wenden Farkas Lemma 12.42 mit A := AText und c := b auf Aussage b’) an und
erhalten, dass
a) Es existiert ein x ≥ 0 mit Ax ≤ b.
150
b) Für alle y ∈ Rm mit y T Aext ≥ 0 gilt bT y ≥ 0.
äquivalent sind.
In Übungsaufgabe 17.3 geben wir eine weitere Variante von Farkas’ Lemma:
Korollar 12.44 (Farkas’ Lemma – Variante II). Für A ∈ Mm,n (R) und b ∈ Rn sind
folgende Aussagen äquivalent:
a) Es existiert ein x ∈ Rn mit Ax ≤ b.
b) Für alle y ∈ Rm mit y ≥ 0 und y T A = 0 gilt y T b ≥ 0.
4. Eulers Polyederformel
Wir wollen zum Abschluß des Kapitels Eulers Polyederformel für Polyeder mit einfachen Ecken beweisen:
Satz 12.45 (Euler, Poincaré 1893/99). Sei P ein d-Polyeder, fi bezeichne die Anzahl
der i-Seiten von P . Dann gilt:
d−1
X
(−1)i fi = 1 + (−1)d+1 .
i=0
Für die Anzahl der Ecken schreibt man V := #E(P ) (vertices), für die Anzahl
der Kanten E (edges) und F für die Anzahl der Flächen (faces). Für d = 2, 3 lautet
die Euler’sche Polyederformel:
V −E =0
V −E+F =2
d=2:
d=3:
Man vergleiche die Ergebnisse mit den Beispielen in Abbildung 15. Für d = 2 gilt
V = E = 5, so dass V − E = 5 − 5 = 0 ist. Der 3-Simplex hat V = 4 Ecken, E = 6
Kanten und F = 4 Flächen, so dass V − E − F = 4 − 6 + 4 = 2 ist.
Abbildung 15. Euler’sche Polyederformel d = 2, 3
s
s
s
s
s
s
s
s
s
Poincarés Beweis basiert auf algebraischen Methoden. Wir wollen den Beweis mit
unseren Mitteln für Polyeder P mit einfachen Ecken führen. Wir nehmen an, jede
Ecke p ∈ E(P ) des d-Polyeders habe d Nachbarecken, und führen den Beweis durch
Induktion über die Anzahl #E(P ) der Ecken.
Für die Induktionsverankerung sei #E(P ) = d + 1, d.h. P ist ein d-Simplex. Im
d-Simplex ist eine i-Seite S charakterisiert durch eine Auswahl von i + 1 aus d + 1
4. Eulers Polyederformel
151
Ecken, die auf S liegen:2
fi =
d+1
.
i+1
(30)
Für 0-Seiten ist d+1
= d + 1, denn eine 0-Seite ist eine der d + 1 Ecken. Für 1-Seiten
1
d(d+1)
d+1
ist 2 = 2 , denn jeweils zwei der Ecken bilden eine Kante. Wegen Gleichung
(30) gilt:
d−1
X
d−1
X
d+1
(−1) fi =
(−1)
i+1
i=0
i=0
d−1
X
i−1 d + 1
=
(−1)
i
i=1
d
X
i d+1
=−
(−1)
i
i=1
d+1
X
i d+1
0 d+1
d+1 d + 1
=−
(−1)
+ (−1)
+ (−1)
.
i
0
d+1
i
i
i=0
Wegen
d+1
0
= 1 und
d−1
X
d+1
d+1
= 1 erhalten wir die Behauptung
i
d+1
(−1) fi = 1 + (−1)
−
i=0
denn aus (a + b)n =
Summe Null ist.
d+1
X
|i=0
Pn
i=0
n
i
i
(−1)
d+1
i
{z
= 1 + (−1)d+1 ,
}
=(1−1)d+1
ai bn−i folgt mit a = −1, b = 1 und n = d + 1, dass die
Für den Induktionsschluß erniedrigen wir die Anzahl #E(P ) der Ecken. Wähle
e ∈ E(P ). Sei H = die Hyperebene durch die d Nachbarecken von e. Sei o.B.d.A. e ∈
H + . Wie haben den Polyeder P zerlegt in
• einen d-Simplex P ∩ H + und
• einen Polyeder P ∩ H − mit weniger als #E(P ) Ecken.
Bezeichne mit fi die Anzahl der i-Seiten von P und mit fi0 die Anzahl der i-Seiten von
P ∩ H − . Die Behauptung folgt aus der Induktionsannahme angewendet auf P ∩ H − ,
wenn
d−1
X
(−1)i (fi − fi0 ) = 0.
(31)
i=0
2Für 0 ≤ k ≤ n ist der Binomialkoeffizient erklärt als
n
k
n!
:= k!(n−k)!
, d.h. gleich der Anzahl
der Möglichkeiten, eine
Teilmenge
von
k
Elementen
aus
einer
Menge
von
n
Elementen
auszuwählen.
Insbesondere gilt n
= 1 und n0 = 1.
n
152
Wir zeigen zunächst

d


fi −
i
fi0 =
d


fi −
+1
i
für i ≤ d − 1
(32)
für i = d − 1.
P ∩H + ist ein d-Simplex. F”ur i < d−1 ist fi −fi0 die Anzahl der i-Seiten von P ∩H +
durch e. Eine i-Seite von P ∩ H + durch e ist charakterisiert durch die Auswahl von i
der d Nachbarecken von e in P ∩ H + . Für i = d − 1 ist fi die Anzahl der (d − 1)-Seiten
von P ∩ H + durch e minus 1.
Wir wenden Gleichung (32) an und erhalten (31):
d−1
d−1
X
X
i
0
i d
(−1) (fi − fi ) =
(−1)
− (−1)d−1
i
i=0
i=0
d
X
d d
i d
−(−1)
−(−1)d−1
=
(−1)
d
i
|{z}
}
|i=0 {z
=(1−1)d =0
= 0.
Dies komplettiert den Induktionsschritt.
=1
Kapitel 13
Lineare
Programmierung
Wir haben in Kapitel 12 die globalen Extremalstellen von konvexen und konkaven
Funktionen über konvexen Mengen untersucht. In diesem Kapitel beschäftigen wir
uns mit dem Fall linearer Funktionen und lernen mit dem Simplex-Algorithmus ein
praktikales Verfahren kennen, um eine Lineareform unter Berücksichtigung von linearen Ungleichungen zu optimieren.
1. Einleitung
In der linearen Programmierung maximiert oder minimiert man eine Linearform in
n Variablen x1 , . . . , xn unter Beachtung von m Restriktionen, die in Form linearer
Gleichungen oder Ungleichungen gegeben sind, und der Forderung, dass die Variablen
nicht negativ sind:
n
n≤o
n
P
minimiere P
c x , so dass
aij xj = bi für i = 1, 2, . . . , m
≥
maximiere j=1 j j
j=1
xj ≥ 0 für j = 1, 2, . . . , n.
Eine solche Aufgabe nennt man lineares Programm und das Lösen lineares Programmieren. Die zu optimierende Linearform heißt Ziel- oder auch Objektfunktion, im Fall
einer Minimierungsaufgabe spricht man angelehnt an die wirtschaftliche Interpretation von der Kostenfunktion. Die Forderung x1 , . . . , xn ≥ 0 wird als Nichtnegativitätsbedingung bezeichnet. Falls eine Variable xi auch negative Werte nehmen darf, also
xi eine freie Variable ist, besteht eine Möglichkeit, xi durch die Differenz yi − zi
für zwei neue Variable yi ,zi zu ersetzen und diese der Nichtnegativitätsbedingung zu
unterwerfen. (Variablen-Splitting).
Zur Vereinfachung der Darstellung verwenden wir die übliche Matrix/VektorSchreibweise. Da die Maximierung von cT x äquivalent zur Minimierung von −cT x ist,
genügt es, Minimierungsaufgaben zu betrachten. Bei den Restriktionen beschränken
wir uns auf ≤“-Ungleichungen, da die Bedingung ai x ≥ bi gleichwertig zu −ai x ≤ −bi
”
153
154
13. Lineare Programmierung
ist und die Gleichung ai x = bi äquivalent zu den beiden Ungleichungen ai x ≤ bi ,
−ai x ≤ −bi ist.
Def inition 13.1 (Kanonische Form eines linearen Programms). Die kanonische
Form eines linearen Programms in n Variablen mit m Restriktionen lautet
minimiere cT x,
so dass Ax ≥ b
x ≥ 0,
wobei A eine m × n-Matrix, b ein Spaltenvektor mit m Einträgen und c ein Spaltenvektor mit n Einträgen ist.
Georg Dantzig arbeitete während des Zweiten Weltkrieges bei der US-Luftwaffe
an der Aufstellung von Plänen (Programmen) zur Logistik und Produktion. Für komplexere Programme suchte Dantzig nach einer mechanischen Methode zum Lösen.
Als Modell übernahm er das Input-Output-Modell von Leontief aus dem Jahr 1932.
In diesem Modell sind die Beziehungen zwischen den Produktionsfaktoren beschränkt
und die Einsatzmenge der Ressourcen und die Ausbringungsmenge stehen in einem
proportionalen Verhältnis. Dantzig ergänzte die Optimierung nach einer linearen
Zielfunktion und entwickelte im Sommer 1947 den Simplex-Algorithmus.1 Der Wirtschaftswissenschaftler Koopmans erkannte die Bedeutung der linearen Programmierung für die Unternehmensplanung (Operation-Research) und legte den Grundstein
der Popularität der linearen Programmierung in den Wirtschaftwissenschaften. Auf
ihn geht auch die Bezeichnung lineare Programmierung“ zurück: Er hatte 1951 diese
”
Bezeichnung als Alternative zu Dantzigs Titel Programming in a linear Structure“
”
(Report der US-Luftwaffe 1948) vorgeschlagen. Für den Erfolg der linearen Programmierung ist neben den Anwendungen in der Unternehmensplanung auch die Entwicklung der ersten Rechenmaschinen entscheidend: Mit dem Simplex-Algorithmus
konnten lineare Programme gelöst werden, die bislang zu komplex waren.
Parallel zur Entwicklung im Westen hatte sich seit 1939 der russische Mathematiker Kantorvicz mit speziellen Produktionsproblemen und deren mathematischer
Struktur beschäftigt sowie Verfahren für diese Klasse linearer Programme entwickelt.
Die Arbeiten blieben im Osten unbeachtet und im Westen bis Ende der fünfziger
Jahre gänzlich unbekannt. Die königlich schwedische Akademie der Wissenschaften
zeichnete 1975 Koopmans und Kantorvicz mit dem Nobelpreis für Wirtschaftswissenschaften aus. Dantzig wurde nicht ausgezeichnet, da die Akademie dessen Beitrag
als zu mathematisch für eine Auszeichnung in Wirtschaftswissenschaften einstufte.
2. Ecken und Basislösungen
Wir haben bereits die kanonische Form eines linearen Programms in n Variablen mit
m Restriktionen kennengelernt:
minimiere cT x, so dass Ax ≥ b
x ≥ 0,
1Die Idee des Simplex-Algorithmus’, iterativ von einer Ecke des Polyhedrons zu einer benach-
barten Ecke mit niedrigem Zielwert zu gehen, ist jedoch nicht neu: Sie fand sich bereits in Arbeiten
von Fourier (1823) und de la Vallée-Poussin (1911), die allerdings unbeachtet blieben.
155
wobei A eine m×n-Matrix, b ein Spaltenvektor mit m und c einer mit n Einträgen ist.
Für Beweise und Algorithmen sind Restriktionen der Form Ax = b statt Ax ≥ b vorteilhafter. Durch Einführen von m Slack-Variablen (auch Schlupfvariablen genannt)
r mit r ≥ 0 transformieren wir Ax ≥ b in Ax − r = b, d.h. ergänzen die Koeffizientenmatrix rechts durch eine (negierte) Einheitsmatrix und erhalten ein äquivalentes
Programm in n + m Variablen:
Def inition 13.2 (Standardform eines linearen Programms). Die Standardform eines
linearen Programms in n Variablen mit m Restriktionen lautet
minimiere cT x,
so dass Ax = b
x ≥ 0,
wobei A eine m × n-Matrix, b ein Spaltenvektor mit m Einträgen und c ein Spaltenvektor mit n Einträgen ist.
Ein lineares Programm in Standardform überführt man in die kanonische Form
mittels Ersetzen der Gleichheit Ax = b durch Ax ≤ b und −Ax ≤ −b. Wir nehmen
meists an, dass die Koeffizientenmatrix vollen Zeilenrang hat, d.h. keine Restriktion
eine Linearkombination der übrigen und somit redundant bzw. nicht mit den übrigen
erfüllbar ist. Insbesondere gilt dann m ≤ n.
Def inition 13.3 (Zulässigkeitsbereich). Zum linearen Programm in Standardform
bezeichne
Zstd := {x ∈ Rn | Ax = b, x ≥ 0 }
die Menge aller zulässigen Lösungen, den Zulässigkeitsbereich. Im Fall Zstd = ∅ heißt
das Programm widersprüchlich. Die Menge aller optimalen, zulässigen Lösungen sei
Ω(c, Zstd ). Der Zielwert ist beschränkt, wenn
inf cT x x ∈ Zstd > −∞.
Sonst kann man den Zielwert beliebig reduzieren und erhält Ω(c, Zstd ) = ∅.
Der Zulässigkeitsbereich Zstd ist als Durchschnitt endlich vieler Halbräume ein
Polyhedron. Sofern der Zielwert des linearen Programms beschränkt ist, stellt die
Menge Ω(c, Zstd ) der optimale Lösungen ebenfalls ein Polyhedron dar, denn
Ω(c, Zstd ) = Zstd ∩ x ∈ Rn cT x ≥ copt
für copt := min cT x x ∈ Zstd . Falls Ω(c, Zstd ) mehr als eine optimale Lösung
enthält, sprechen wir von Mehrdeutigkeit.
Eine Lösung x ∈ Zstd ist eine Ecke des Zulässigkeitsbereichs bzw. des Polyhedrons Zstd , wenn kein y 6= 0 mit x ± y ∈ Zstd existiert. Die Menge der Ecken des
Zulässigkeitsbereichs bezeichnen wir mit E(Zstd ). Falls der Ursprung eine zulässige
Lösung ist, so stellt der Ursprung eine Ecke dar, denn für alle y 6= 0 sind 0 ± y nicht
gleichzeitig zulässige Lösungen, weil ±y ≥ 0 nicht gilt.
Lemma 13.4. Aus 0 ∈ Zstd folgt 0 ∈ E(Zstd ).
Falls x ∈ Zstd keine Ecke ist, gilt dann x 6= 0. Das Konzept einer Ecke ist grundlegend für die lineare Programmierung: Es existiert immer eine optimale Ecke, sofern
die Lösungsmenge Zstd nicht leer und der minimale Zielwert endlich ist.
156
Satz 13.5. Der Zulässigkeitsbereich Zstd sei nicht leer und der optimale Zielwert des
linearen Programms sei endlich. Dann enthält Ω(c, Zstd ) eine Ecke von Zstd , d.h. es
gibt eine Ecke des Zulässigkeitsbereichs, die optimal ist.
Beweis. Sei x ∈ Ω(c, Zstd ) eine optimale Lösung des linearen Programms. Es genügt,
eine Ecke p mit cT x ≥ cT p zu finden. Wir versuchen, in mehreren Schritten aus x eine
Ecke zu erhalten. Falls x eine Ecke ist, sind wir fertig. Sei x ≥ 0 keine Ecke, d.h. es
existiert ein y 6= 0 mit x ± y ∈ Zstd . Nach Lemma 13.4 gilt x 6= 0. Insbesondere ist
x ± y ≥ 0 sowie Ax + Ay = b und Ay = 0 wegen Ax = b. Durch einen möglichen
Übergang von y auf −y erreichen wir
cT y ≤ 0.
(33)
Falls cT y = 0, wähle y = (y1 , . . . , yn ) so, dass ein Eintrag yj < 0 existiert. Wir führen
eine Fallunterscheidung bezüglich des Vektors y durch:
a) Es gibt einen Eintrag j mit yj < 0. Wähle λ > 0 maximal mit x + λy ≥ 0.
Der Vektor
xneu := x + λy ≥ 0
hat im Vergleich zu x mindestens eine Null-Komponente mehr. Für xneu ∈
Zstd genügt der Nachweis von Axneu = b:
Axneu = A(x + λy) = Ax + λ · (Ay) = Ax = b.
| {z }
=0
b) Es gilt y ≥ 0 (und nach Wahl von y auch c 6= 0). Für jedes λ ≥ 0 ist
x + λy ∈ Zstd wegen
A(x + λy) = Ax + λ · (Ay) = Ax = b
| {z }
=0
cT y
und x+λy ≥ x ≥0. Falls
< 0ist, verstoßen wir gegen die Endlichkeitsbe
dingung von inf cT x x ∈ Zstd . Gemäß Voraussetzung (33) gilt cT y = 0.
Da nach Wahl y 6= 0 und c 6= 0 sind, muß y mindestens eine negative Komponente haben — Widerspruch zu Fall b).
Wiederhole den ersten Fall, bis wir eine Ecke erhalten. Da der neue Vektor im Vergleich zum Vorgängervektor eine Null-Komponente mehr hat, erhält man nach maximal n Iterationen eine Ecke.
Damit ist Satz 12.31 auf Seite 144 bewiesen, denn ein Polyhedra kann man als
Zulässigkeitsbereich eines linearen Programms auffassen. Aus Satz 13.5 folgt ferner
wegen Zstd = Ω(0, Zstd ):
Korollar 13.6. Der nicht leere Zulässigkeitsbereich Zstd hat eine Ecke.
Um eine optimale Lösung eines linearen Programms zu finden, genügt es nach
Satz 13.5 die (endlich vielen) Ecken des Zulässigkeitsbereichs zu untersuchen. Wir
haben Ecken bisher geometrisch beschrieben, im folgenden wollen wir eine algebraische Charakterisierung herleiten. Dazu identifizieren die Ecken x ∈ E(Zstd ) durch
Unterteilung von x1 , . . . , n in Basis- und Nichtbasis-Variablen. Für eine nicht leere
157
Indexmenge I ⊆ {1, 2, . . . , n} sei AI die Matrix bestehend aus den Spaltenvektoren
von A mit aufsteigend angeordneten Indizes in I und analog xI den Vektor bestehend
aus den entsprechenden Einträge des Vektors x.
Lemma 13.7. Sei x ∈ Zstd und I := {i | xi > 0 }. Genau dann gilt x ∈ E(Zstd ),
wenn I = ∅ oder die Spalten von AI linear unabhängig sind.
Beweis. Wir zeigen die negierte Äquivalenz: Der Punkt x ∈ Zstd ist genau dann
keine Ecke von Zstd , wenn I 6= ∅ und die Spalten von AI linear abhängig sind.
⇒“ AI habe linear abhängige Spalten, d.h. insbesondere ist I 6= ∅ und x 6= 0.
”
Dann existiert ein Vektor yI 6= 0 mit AI · yI = 0. Wir ergänzen yI durch
Null-Komponenten zu y ∈ Rn mit Ay = 0. Wähle λ > 0 mit x ± λy ≥ 0.
Dies ist wegen yi = xi = 0 für i ∈
/ I und xi > 0 für i ∈ I möglich. Aus
A(x ± λy) = Ax ± λ · (Ay) = Ax = b
| {z }
=0
erhalten wir x ± λy ∈ Zstd , so dass x ∈
/ E(Zstd ).
⇐“ Der Punkt x sei keine Ecke. Dann existiert nach Definition ein y 6= 0 mit
”
x ± y ∈ Zstd und es ist x 6= 0. Wegen
Ax + Ay = b
Ax − Ay = b
gilt Ay = 0. In Verbindung mit x±y ≥ 0 erhalten wir: Aus xi = 0 (äquivalent
i∈
/ I) folgt yi = 0. Sei yI der Vektor, der aus den Einträgen I von y besteht.
Nach vorheriger Überlegung und y 6= 0 ist yI 6= 0. Das heißt, dass
0 = Ay = AI · yI
und AI hat wegen yI 6= 0 linear abhängige Spalten.
Die Auswahl einiger Spalten der Koeffizientenmatrix A wie in Lemma 13.7 entspricht
einer Partition der Indizes {1, 2, . . . , n} in zwei Mengen:
Def inition 13.8 (Basis-Nichtbasis-Partition). Zum linearen Programm in Standardform heißt eine Partition (B, N ) von {1, 2, . . . , n} Basis-Nichtbasis-Partition, wenn
die Spaltenvektoren der Matrix von AB eine Basis des Rm bilden (insbesondere |B| =
m). Sie ist zulässig, wenn der Koordinatenvektor xB := A−1
B b von b bezüglich der
Spaltenvektoren von AB keine negativen Einträge hat. Die Variablen xi mit i ∈ B
nennt man Basis- und die mit i ∈ N Nichtbasisvariablen der Partition.
Jeder (zulässigen) Basis-Nichtbasis-Partition ordnen wir eine (zulässige) Lösung zu:
Def inition 13.9 (Basislösung). Zu einer Basis-Nichtbasis-Partition (B, N ) bezeichne Φ(B, N ) die zugehörige Basislösung x mit xB := A−1
B b und xN := 0. Wir nennen
den Zielwert der zugehörigen Basislösung
Φc (B, N ) := cT · Φ(B, N ) = cTB A−1
B b
den Zielwert der Basis-Nichtbasis-Partition (B, N ).
158
Im folgenden Satz stellen wir die Beziehung zwischen den Ecken des Zulässigkeitsbereichs und den zulässigen Basis-Nichtbasis-Partitionen dar. Zwar ist die Basislösung
einer zulässigen Basis-Nichtbasis-Partition eine Ecke, umgekehrt können aber einer
Ecke mehrere zulässige Basis-Nichtbasis-Partitionen zugeordnet werden.
Satz 13.10. Die m × n-Koeffizientenmatrix A habe vollen Zeilenrang m ≤ n. Dann
gilt:
a) Zur zulässigen Basis-Nichtbasis-Partition (B, N ) ist Φ(B, N ) ∈ E(Zstd ).
b) Jede Ecke x ∈ E(Zstd ) ist eine zulässige Basislösung zur Partition (B, N ),
ergänzt man {i | xi > 0 } gegebenenfalls durch Hinzunahme von Indizes weiterer, linear unabhängiger Spaltenvektoren zu B mit Mächtigkeit m.
Beweis. Für die erste Aussage beachte, dass für x := Φ(B, N ) nach Definition xB =
A−1
B b ≥ 0 und wegen xN = 0 insgesamt x ≥ 0 gilt. Aus
Ax = AB xB + AN xN = AB A−1
B b + AN 0 = b
folgt x ∈ Zstd . Da nach Definition rang AB = m, erhalten wir aus Lemma 13.7, dass
x eine Ecke der Lösungsmenge ist.
Zum Beweis der zweiten Behauptung sei x ∈ E(Zstd ) mit I := {i | xi > 0 }. Nach
Lemma 13.7 sind die Spaltenvektoren von AI linear unabhängig, so dass nach Voraussetzung |I| ≤ rang A = m ist. Im Fall |I| = m sei B := I, sonst ergänze I
durch Hinzunahme der Indizes weiterer, linear unabhängiger Spaltenvektoren zu B
mit Mächtigkeit m. Sei N = {1, 2, . . . , n} \ B. Wegen xB\I = 0 gilt:
AB xB = AI xI + AB\I xB\I = Ax = b.
Weil xB = A−1
B b ≥ 0, ist (B, N ) eine zulässige Basis-Nichtbasis-Partition.
Es ist möglich, dass einer Ecke verschiedene, zulässige Basis-Nichtbasis-Partitionen
zugeordnet werden können. In diesem Fall nennt man die Ecke und zugehörige BasisNichtbasis-Partitionen degeneriert:
Def inition 13.11 (Degeneration). Eine zulässige Basis-Nichtbasis-Partition (B, N )
und die zugehörige Basislösung x := Φc (B, N ) heißen degeneriert (entartet), wenn
xB Nulleinträge hat.
Eine Ecke des Zulässigkeitsbereichs ist degeneriert, wenn sie auf mehr als n − m
Seitenflächen {x ∈ Rn | xk = 0 }, nämlich k ∈ N und einer weiteren mit k ∈ B, liegt.
Nach Satz 13.10 finden wir den optimalen Zielwert, indem wir zu jeder BasisNichtbasis-Partition testet, ob diese zulässig ist und das Minimum der zugehörigen
Zielwerte ausgeben.
Dieser Ansatz ist aber nur für kleine n und m durchführbar, denn
n
n m
viele Basis-Nichtbasis-Partitionen. Beim Simplex-Algorithmus
es gibt m
≥ m
versucht man die Anzahl der betrachteten Basis-Nichtbasis-Partitionen zu reduzieren,
indem nur Partitionen in Betracht gezogen werden, deren der Zielwert mindestens das
bisher erreichte Niveau hat.
3. Simplex-Algorithmus
159
Dantzig hatte im Rahmen der Forschung der US-Luftwaffe lineare Programme zur
Planung der Logistik und Produktion im Kriegsfall formuliert und hoffte vergebens,
dass man in der Wirtschaftmathematik mechanische Methoden zur linearen Programmierung kannte. Während des Sommers 1947 entwickelte er den Simplex-Algorithmus.
Als erste, öffentliche Publikation gilt Dantzigs Text [Dantzig51]. Die Bezeichnung
Simplex-Algorithmus“ geht auf Dantzigs ursprüngliche Voraussetzung zurück, dass
”
die Lösungsmenge ein Simplex sei. Das Simplex-Verfahren funktioniert auch bei Degeneration, sofern bei der Pivot-Wahl sichergestellt ist, nicht in eine Endlosschleife
zu geraten.
Die grundlegende Idee der Simplex-Methode ist, beginnend von einer Ecke des
Zulässigkeitsbereichs iterativ zu benachbarten Ecken zu gehen, bis eine optimale
Ecke erreicht wird. In der Praxis bildet der Ursprung meist die Ausgangsecke, im
anderen Fall können wir in einer ersten Phase mittels Simplex-Algorithmus eine
Ecke der Lösungsmenge bestimmen. Nach Korollar 13.6 auf Seite 156 existiert eine Ausgangsecke, sofern die Restriktionen nicht widersprüchlich sind. Wir setzen
zunächst voraus, dass eine zulässige Basis-Nichtbasis-Partition (B, N ) und zugehörige
Basislösung (Ecke) bekannt sind, und untersuchen die folgenden Punkte:
• Wie erhält man die Basis-Nichtbasis-Partition bzw. Basislösung einer benachbarten Ecke mit niedrigerem Zielwert und wie entscheidet man sich bei
mehreren Alternativen?
• Wie ist eine optimale Ecke zu erkennen?
• Unter welchen Bedingungen terminiert dieses Verfahren?
Zur Basis-Nichtbasis-Partition (B, N ) kann man das lineare Programm schreiben als:
minimiere cT x, so dass AB xB + AN xN
xB , xN
=b
≥ 0.
Nur die Variablen xN sind unabhängig, xB erhalten wir gemäß
xB (xN ) := A−1
B (b − AN xN ) .
(34)
Die Objektfunktion lautet:
cT x = cTB xB (xN ) + cTN xN
T
= cTB A−1
B (b − AN xN ) + cN xN
T
T −1
= cTB A−1
B b + cN − cB AB AN xN .
| {z } |
{z
}
=Φc (B,N )
:=sT
N
Wir haben die Zielfunktion relativ zu einer Basis-Nichtbasis-Partition (B, N ) umgeformt. Der Wert Φc (B, N ) ist der Zielwert an der Stelle Φ(B, N ).
Def inition 13.12 (Relative Zielfunktion). Zu einer zulässigen Basis-Nichtbasis-Partition
(B, N ) heißt die Funktion Φc (B, N ) + sT x mit sB := 0 und sTN := cTN − cTB A−1
B AN die
relative Zielfunktion.
160
Beachte, Φc (B, N ) hängt nur von der Basis-Nichtbasis-Partition (B, N ) und der
zugehörigen Basislösung, jedoch nicht von der Variablen x ab. Die relative Zielfunktion gibt an, wie sich der Zielwert verhält, ändern wir den Wert von Nichtbasisvariablen. Angelehnt an die ökonomische Interpretation im Fall einer Minimierungsaufgabe
heißen die Koeffizienten s Schattenpreise, die (informell formuliert) angeben, was es
kostet, eine Nichtbasisvariable xj um eine Einheit zu erhöhen.2 Durch die Schattenpreise erhalten wir ein Optimalitätskriterium für die Basislösung:
Satz 13.13 (Optimalitätskriterium). Die Basislösung bzw. die Ecke zur zulässigen
Basis-Nichtbasis-Partition (B, N ) ist genau dann optimal, wenn für die relative Zielfunktion der Vektor sN ≥ 0 ist, d.h. alle Schattenpreise nicht-negativ sind.
Beweis. Wegen cT x = Φc (B, N ) + sTN xN und der Forderung xN ≥ 0 für alle zulässigen Lösungen x ∈ Zstd können wir den Zielwert nur reduzieren, falls mindestens ein
Eintrag in sN negativ ist.
Sei xi eine Nichtbasisvariable, also i ∈ N , mit negativem Schattenpreis si . Wir
wollen i in die Basis B aufnehmen und werden dafür einen Index j aus B entfernen.
Die Variable xi der Basislösung zur Partition (B, N ) hat als Nichtbasisvariable den
Wert 0. Um diese auf λ ≥ 0 zu setzen, muß man die Werte der Variablen xB gemäß
Gleichung (34) ändern:
−1
xB (xN (λ)) := A−1
B (b − λAei ) = AB (b − λAi ) .
(35)
Sei x(λ) die neue Lösung in Abhängigkeit in λ. Wegen (35) gilt:
Ax(λ) = AB · xB (xN (λ)) + AN xN (λ) = AB A−1
B (b − λAi ) + λAi = b.
Der Zielwert c(λ) ist
cT x(λ) = Φc (B, N ) + sTN xN (λ) = Φc (B, N ) + si λ.
Aufgrund si < 0 nimmt der Zielwert mit wachsendem λ ab. Wir wählen das maximale
λ ≥ 0 mit x(λ) ∈ Zstd . Wegen xN (λ) ≥ 0 und Ax(λ) = b suchen wir das größte λ ≥ 0
mit xB (xN (λ)) ≥ 0. Zu
λsup := sup {λ ∈ R≥0 | x(λ) ≥ 0 }
unterscheide drei Situationen:
• Im Fall λsup = +∞ können wir den Zielwert beliebig verkleinern, der Zielwert
ist unbeschränkt und das Verfahren stoppt.
• Im Fall 0 < λsup < +∞ existiert ein j, so dass xj (0) > 0 und xj (λsup ) = 0
ist, denn für x(0) = 0 muß λsup = 0 sein. Wir tauschen j ∈ B und i ∈ N für
die neue Basis-Nichtbasis-Partition (B neu , N neu ) aus. Die neue Basislösung
ist x(λsup ), der Zielwert sinkt auf c(λsup ).
Zu zeigen bleibt, dass für die neue Basis-Nichtbasis-Partition die Matrix AB neu vollen Rang hat. Wir wollen zeigen, dass der Übergang von den
Spaltenvektoren AB auf AB neu eine Basistransformation ist. Angenommen,
der neue Vektor Ai sei eine Linearkombination der Spaltenvektoren AB\{j} ,
2Diese Interpretation der Koeffizienten der relativen Zielfunktion stammt aus der klassischen
Sensitivitätsanalyse. Im Fall von Degeneration muß diese Interpretation nicht korrekt sein.
161
d.h. es gäbe einen Koeffizientenvektor u mit uj = 0 und AB uB = Ai . Dann
ist der Eintrag j des Vektors λsup A−1
B Ai = λsup uB gleich 0. Aus
−1
xB (λsup ) = A−1
B b − λsup AB Ai
| {z }
| {z
} | {z }
j-tes Bit Null
=xB (0)
j-tes Bit Null
folgt, dass xj (0) = 0 — Widerspruch zur Wahl von j.
• Im Fall λsup = 0 ist die Ecke degeneriert: Es gibt einen Index k ∈ B, so dass
der Eintrag k in xB = A−1
B b Null ist (also die Basisvariable xk den Wert 0
hat), die Komponente k in A−1
B Ai hingegen nicht. Wähle den Index j des
Spaltenvektors aus der Menge {k ∈ B | xk = 0 } so, dass die Spaltenvektoren von A{i}∪B\{j} linear unabhängig sind. Mit der neuen Basis-NichtbasisPartition ist die gleiche Basislösung verbunden und insbesondere vermindern
wir den Zielwert nicht.
Falls der Zulässigkeitsbereich Zstd keine degenerierte Ecke hat, finden wir nach endlich vielen Iterationen eine optimale Ecke oder bemerken, dass das lineare Programm
unbeschränkt ist. Bevor wir genauer auf die Wahl eingehen, welche Variable aus der
Basis entfernt und welche hinzugenommen wird, zeigen wir, dass der zuvor beschriebene Übergang zu einer anderen Ecke des Zulässigkeitsbereichs anschaulich bedeutet,
dass man sich entlang der Menge
{x(λ) | 0 ≤ λ ≤ λsup } ,
einer Kante3 des Polyhedrons, bewegt und umgekehrt auch alle benachbarten Ecken
betrachtet. Zwei Ecken p, p0 heißen benachbart, wenn [p, p0 ] eine Kante ist. Wir sagen,
zwei zulässige Basis-Nichtbasis-Partitionen (B, N ) und (B 0 , N 0 ) sind benachbart, wenn
|B \ B 0 | = 1, d.h. die beiden Partitionen sind durch Austausch einer Basis- gegen eine
Nichtbasis-Variable ineinander überführbar. In Übungsaufgabe 17.1 zeigen wir:
Satz 13.14. Für den Zulässigkeitsbereich Zstd gilt:
a) Zwei Ecken p, p0 ∈ E(Zstd ), p 6= p0 , sind genau dann benachbart, d.h. [p, p0 ] ist
eine Kante von Zstd , wenn zulässige, benachbarte Basis-Nichtbasis-Partitionen
(B, N ), (B 0 , N 0 ) mit p = Φ(B, N ) und p0 = Φ(B 0 , N 0 ) existieren.
b) Falls für zwei zulässige, benachbarte Basis-Nichtbasis-Partitionen (B, N ) und
(B 0 , N 0 ) die Basislösungen Φ(B, N ) und Φ(B 0 , N 0 ) nicht benachbart sind, gilt
Φ(B, N ) = Φ(B 0 , N 0 ) und die Ecke ist degeneriert.
In jeder Iteration nehmen wir eine Variable xi in die Basis auf und eine Variable xj
heraus. Die Entscheidung für ein Index-Paar (i, j) ∈ N × B heißt Pivot-Wahl. Für die
von Wahl (i, j) gibt es sogenannte Pivot-Regeln, weil zumeist mehrere Alternativen
existieren. Dantzig [Dantzig51] hat ursprünglich zwei Regeln vorgeschlagen:
Nonbasic-Gradient-Methode: Wähle i ∈ N mit minimalem Schattenpreis
si < 0.
Best-Improvement-Regel: Wähle i ∈ N mit der maximal möglichen Abnahme des Zielwertes.
3[p, p0 ] ist eine Kante, wenn zu keinem Punkt x ∈ [p, p0 ] ein y 6= 0 mit (p−p0 ) ⊥ y und x±y ∈ Z
std
existiert.
162
Diese Richtlinien stellen neben der formalen Anforderungen keine Bedingungen an
die Wahl von j ∈ B, d.h. welche Variable aus der Basis genommen werden soll. Bei
beiden Regeln besteht die Gefahr des Cyclings (Kreisens). Wir haben in Satz 13.14
gesehen, dass im Fall einer degenerierten Ecke mehrere Basis-Nichtbasis-Partitionen
zur gleichen Basislösung existieren. Bei beiden Pivot-Regeln ist es möglich, dass wir
nach einigen Iterationen wieder die Ausgangspartition erreichen, ohne die Ecke zu
verlassen. Der interessierte Leser findet ein Beispiel bestehend aus 3 Gleichungen
und sieben Variablen, bei dem man nach sechs Schritten wieder die Ausgangspartition erreicht, in [Dantzig66, V97]. Die heute geläufigste Pivot-Regel, die Cycling
verhindert, geht auf Bland [Bland77] zurück:
Blands Pivot-Regel: Nimm xi mit minimalem i ∈ {k ∈ N | sk < 0 } in die
Basis auf und entferne xj mit minimalem j ∈ {k ∈ B | xk (λsup ) = 0 }.
Für Blands Pivot-Regel ist gewährleistet, dass der Simplex-Algorithmus stets terminiert [V97, PS82]:
Fakt 13.15. Mit Blands Pivot-Regel tritt kein Cycling auf.
Beim Simplex-Algorithmus 1 auf Seite 163 setzen wir in Schritt 1 voraus, dass
zu Beginn eine zulässige Basis-Nicht-Basispartition (B, N ) respektive eine zulässige
Basislösung x bekannt ist. Falls das Programm in kanonischer Form, also
minimiere cT x, so dass Ax ≤ b
x ≥ 0,
gegeben ist, führen wir Slack-Variablen r ein, so dass neben den Nichtnegativitätsbedingungen x, r ≥ 0 die Restriktionen
x
A Im
=b
r
lauten. Die letzten m Spalten, die Einheitsvektoren, sind offenbar linear unabhängig.
Für b ≥ 0, erhalten wir mit x = 0 und r = b eine zulässige Basislösung und entsprechend eine zulässige Basis-Nichtbasis-Partition.
Falls bei der kanonischen Form b negative Einträge hat oder das lineare Programm
in Standardform mit Ax = b vorliegt, ist eine zulässige Basislösung nicht immer offensichtlich. Wenngleich in der Praxis meist der Ursprung eine Ecke des Zulässigkeitsbereichs darstellt, ist die Bestimmung einer Ecke in Schritt 1 des Simplex-Algorithmus’
im allgemeinen nicht trivial. Man kann sogar zeigen, dass das Finden einer beliebigen
Lösung zu einem linearen Ungleichungssystem äquivalent zur linearen Programmierung ist. Ein Ansatz ist der sogenannte Zwei-Phasen-Simplex-Algorithmus. Wir erweitern das Programm durch Einführen neuer Variablen t und minimieren die Summe
der neuen Variablen:
P
minimiere m
i=1 ti , so dass Ax + t = b
x, t ≥ 0.
Falls der optimale Zielwert ungleich 0 ist, gilt Ax 6= b für alle x ≥ 0 und das ursprüngliche lineare Programm hat keine zulässige Basislösung. Im anderen Fall ist
t = 0 für jede optimale Lösung (x, t), also Ax = b. Wir setzen wegen t = 0 voraus,
dass die Variablen t Nichtbasis-Variablen sind. Aus der Basis-Nichtbasis-Partition
163
Abbildung 1. Simplex-Algorithmus mit Blands Pivot-Regel
Eingabe: Lineares Programm in Standardform
(1) Wähle zulässige Basis-Nichtbasis-Partition (B, N ).
(2) Berechne zur Basis-Nichtbasis-Partition aktuellen Zielwert
Φc (B, N ) und Schattenpreise sN .
(3) IF sN ≥ 0 THEN stoppe mit Ausgabe Φ(B, N ).
(4) Wähle i := min {k ∈ N | sk < 0 }.
(5) λsup := sup {λ ∈ R≥0 | x(λ) ≥ 0 } mit xB (λ) = A−1
B (b − λAi ).
(6) Fallunterscheidung:
• λsup = +∞: Stoppe, Zielwert ist unbeschränkt.
• λsup < +∞: Setze j := min {k ∈ B | xk (λsup ) = 0 }.
(7) B := {i} ∪ B \ {j}, N := {1, 2, . . . , n} \ B
(8) GOTO 2
(B, N ) erhält man eine zulässige Basislösung für das ursprüngliche Programm durch
Entfernen der Indizes für t aus N . Haben wir im ersten Schritt eine zulässige Basislösung bzw. Basis-Nichtbasis-Partition mit dem Simplex-Algorithmus bestimmt
oder das Programm als widersprüchlich erkannt, ist nun das eigentliche Programm
mit dem Simplex-Verfahren 1 zu lösen. Man nennt dieses zweistufige Verfahren ZweiPhasen-Simplex-Algorithmus, da das Programm in zwei getrennten Phasen gelöst
wird.
Ein Nachteil der Zwei-Phasen-Methode ist, dass beide Stufen separat arbeiten,
insbesondere wählen wir die in der ersten Phase gefundene Basis-Nichtbasis-Partition
unabhängig von der Zielfunktion cT x. Eine Möglichkeit, beide Phasen zu kombinieren,
bildet die Big-M-Methode. Zu einem Programm in Standardform führe m zusätzliche
Variablen t ein und löse
x
Pm
T
minimiere c x + M i=1 ti , so dass A Im
=b
t
x, t ≥ 0
mit einer hinreichend großen Konstanten M . Mit der Konstanten M erreichen wir,
dass für alle optimalen Lösungen (x, t) gilt t = 0 und x eine optimale Lösung des
ursprünglichen Programms ist.
n
Es gibt maximal m
zulässige Basis-Nichtbasis-Partitionen, die Anzahl der Iterationen von Algorithmus 1 ist durch 2n beschränkt. Berechnen der Inversen A−1
B ,
Lösen des linearen Gleichungssystems AB xB = b sowie die übrigen Aufgaben in jeder
Iteration gelingen jeweils in O(n3 ) Schritten.
Satz 13.16. Zu einem linearen Programm in n Variablen mit m ≤ n Restriktionen
liefert der Simplex-Algorithmus 1 in O(n3 2n ) Schritten entweder eine optimale Ecke
oder erkennt, dass das Programm widersprüchlich bzw. unbeschränkt ist.
164
Der Satz 13.16 liefert nur eine exponentielle Laufzeitschranke für den SimplexAlgorithmus. Für die Analyse haben wir die Anzahl der betrachteten Basis-NichtbasisPartitionen durch die Anzahl aller möglichen Partitionen nach oben beschränkt.
Klee und Minty [KM72, S86] haben 1972 ein lineares Programm in 2n Variablen
und n Restriktionen angeben, für das die Simplex-Methode mit Dantzigs NonbasicGradient-Pivotregel 2n −1 Iterationen benötigt. Dieses negative Resultat wurde in den
Folgejahren auf die anderen, bekannten Pivotregeln übertragen, Avis und Chvátal
[AC78] zeigten die exponentielle Schranke für Blands Pivotregel. Wenngleich der ursprüngliche Simplex-Algorithmus kein Polynomialzeit-Verfahren darstellt, ist es bis
heute ein offenes Problem, ob eine (deterministische oder randomisierte) Pivotregel existiert, für welche die Anzahl der Iterationen polynomiell ist, d.h. man beweisen kann, dass der Simplex-Algorithmus jedes lineare Programm effizient löst. Diese
Worst-Case-Laufzeit steht im Widerspruch zur Praxis. In Dantzigs Buch [Dantzig66]
schreibt der Erfinder der Simplex-Methode, dass in den zahlreichen Beispielen aus der
Praxis die Anzahl der Iterationen für ein lineares Programm in kanonischer Form mit
m Restriktionen und n Variablen im Bereich von 2m bis 3m liegt.
Mit Khachiyans Ellipsoid-Methode [Kh79] kennt man zwar bereits seit 1979
einen Polynomialzeit-Algorithmus4 für die lineare Programmierung, allerdings ist das
Verfahren nicht praktikabel. Basierend auf einer Arbeit von Karmakar [Ka84] wurden Ende der Achtziger Jahren Interior-Point-Methoden entwickelt [V97]. Diese lösen
lineare Programme in Polynomialzeit und sind für große Programme mit mehr als
1000 Variablen eine Alternative zum Simplex-Algorithmus.
Für die Variante des Simplex-Algorithmus’ mit der sogenannten SchatteneckenPivotregel von Borgwardt (1988) ist die Laufzeit für zufällige (nach einer bestimmten Verteilung) verteilte A, b, c im Durchschnitt durch ein Polynom in der Variablenanzahl n und der Anzahl Restriktionen m beschränkt. Es ist jedoch ein offenes
Problem, ob für die lineare Programmierung ein starker Polynomialzeit-Algorithmus,
d.h. die Laufzeit ist durch ein Polynom in n und m beschränkt und hängt insbesondere nicht von der Eingabelänge ab, existiert. Es ist ebenso ungeklärt, ob die Distanz
zwischen zwei Ecken e1 , e2 der Lösungsmenge (d.h. die Anzahl der Kanten auf dem
Kantenzug von e1 nach e2 ) durch ein Polynom in n und m beschränkt ist, also eine
Pivotregel existieren kann, für die das Simplex-Verfahren ein starker PolynomialzeitAlgorithmus ist.
4. Simplex-Tableau
Für die Rechnung per Hand ist die Simplex-Methode in Form von Algorithmus 1
(Seite 163) ungeeignet: In jeder Iteration lösen wir ein lineares Gleichungssystems
bzw. bestimmen eine inverse Matrix und gehen die Halbgerade x(λ) bis zu einer Ecke
entlang, um die Indizes für den Basiswechsel zu ermitteln. Zum Lösen eines linearen Programms per Hand haben sich Simplex-Tableaus etabliert, die eine alternative
Darstellung des Simplex-Algorithmus’ liefern. Für die Simplex-Tableaus führe eine
neue Variable −z und als weitere Restriktion cT x − z = 0 ein. Das Ziel ist, den Wert
von −z zu maximieren. Fixiere −z als Basisvariable, d.h. beachte diese Variable bei
4Die Laufzeit ist durch ein Polynom in der Bitlänge der ganzzahligen Eingabe A, b, c beschränkt.
4. Simplex-Tableau
165
der Pivot-Auswahl nicht. Das Tableau hat folgenden Aufbau:
−z
x
0
A
b
1
cT
0
Sei (B, N ) eine zulässige Basis-Nichtbasis-Partition. Um die Basislösung unmittelbar
aus dem Simplex-Tableau abzulesen, überführen wir durch elementare Zeilenoperationen das Gleichungssystem Ax = b in ein äquivalentes System A0 x = b0 mit A0B = Im ,
so dass für die Basislösung x := Φ(B, N ) gilt xB = b0 und xN = 0. Das Tableau hat
schematisch folgenden Aufbau:
−z
xN
xB
0
A0N
Im b0
1
cTN
cTB
0
In der letzten Zeile soll die relative Zielfunktion steht. Durch elementare Zeilenoperationen löschen wir die Einträge der Basisvariablen in der letzten Zeile, d.h. wir
subtrahieren die i-te Zeile ci -mal von der letzten Zeile. Wegen xB = b0 ist der Eintrag
in Feld rechts unten −cTB xB = −Φc (B, N ). Die xB -Einträge der letzten Zeile sind
Null und, da A0B = Im , entsprechen die xN -Einträge den Schattenpreisen
cTN − cTB A0N = sN
bezüglich der Basis-Nichtbasis-Partition (B, N ), so dass das Simplex-Tableau zur
Basis-Nichtbasis-Partition (B, N ) schematisch wie folgt aussieht:
−z
xN
xB
0
A0N
Im
1
sTN
b0
sTB = 0 −Φc (B, N )
Zusammenfassend: Wir erhalten die Basislösung und die relative Zielfunktion (die
Schattenpreise) zu einer gegebenen Basis-Nichtbasis-Partition (B, N ), indem man
mittels elementarer Zeilenoperationen in den Spalten zu xB die Einheitsvektoren
e1 , . . . , em erzeugt. Der negierte Zielwert steht rechts unten. Unser Ziel ist es, den
Wert im Feld rechts unten zu maximieren.
Zu klären ist, wie man die Pivotwahl (i, j) ∈ N ×B nach Blands Regel im SimplexTableau vornimmt. Die Wahl i ∈ N , d.h. welche Variable xi in die Basis genommen
wird, treffen wir anhand der Schattenpreise in der letzten Zeile: Wähle das minimale
i ∈ N mit si < 0. Um j ∈ B zu bestimmen, betrachte zum Skalar λ ≥ 0 den Ausdruck
xB (λ) = (A0B )−1 b0 − λA0 ei = b0 − λA0i
aus Definition 35 auf Seite 160, berechne λsup := sup {λ ∈ R≥0 | x(λ) ≥ 0 } und wähle
j := min {k ∈ B | xk (λsup ) = 0 } .
166
Für λsup bestimmen wir λsup (k) := sup {µ ∈ R≥0 | b0k − µ · A0ik ≥ 0 } für 1 ≤ k ≤ m,
also
( b0
k
falls A0ik 6= 0
0
λsup (k) := Aik
+∞ sonst.
und setzen λsup gleich dem Minimum aller λsup (k) ≥ 0. Bezogen auf das Tableau
besagt Blands Pivotregel:
(1) Wähle die erste Spalte i mit dem kleinsten, negativen Schattenpreis (Pivotspalte).
(2) Wähle die oberste Zeile j mit λsup (j) = λsup (Pivotzeile). Um λsup zu ermitteln, dividiere in jeder Zeile k die rechte Seite b0k durch den Koeffizienten
A0ik in der Pivotspalte, sofern dieser ungleich Null ist, und bestimmte den
kleinsten, nicht-negativen Quotienten.
(3) Erzeuge durch elementare Zeilenoperationen in der Pivotspalte i den kanonischen Einheitsvektor ej .
Abbildung 2. Zulässigkeitsbereich des Beispiel-Programms
x2
III
6
5
4
3
2
1
0
p p p pp ppp
ppp pppp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppp p
p
p
p
p
p
p
p p p pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp p
ppp ppp pppp pppp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp pp
p
p
p
p
p p pp pp pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp p II
ppp pppp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp
ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp
ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp I
- x1
1
2
3
4
5
Wir demonstrieren Simplex-Tableaus und das Rechnen mit ihnen anhand eines
einfachen Beispieles. Minimiere −x1 − x2 unter den Restriktionen x1 , x2 ≥ 0 und
2x1 ≤ 10
−3x1 + 6x2 ≤ 18
2x1 + x2 ≤ 13.
Abbildung 2 zeigt den Zulässigkeitsbereich im R2 . In Matrixschreibweise und mit
Slackvariablen lauten die Restriktionen:
 
x1
 


x2 
10
2 0 1 0 0
 
−3 6 0 1 0 · x3  = 18 .
 
x4 
13
2 1 0 0 1
x5
4. Simplex-Tableau
167
Ergänze drei Slackvariablen x3 , x4 , x5 , die aktuellen Basisvariablen werden durch Fettdruck gekennzeichnet (In leeren Feldern steht jeweils eine Null):
−z
1
x1 x2 x3 x4 x5
2
1
10
−3 6
1
18
2
1
1 13
−1 −1
0
Aus dem Tableau erhalten wir als Basislösung x = (0, 0, 10, 18, 13) mit Zielwert 0
und Schattenpreisen (−1, −1, 0, 0, 0). In Abbildung 2 entspricht dies dem Nullpunkt.
Blands Regel folgend wähle x1 als neu in die Basis zu nehmende Variable, denn der
minimale Schattenpreis ist s1 = s2 = −1 und wir entscheiden uns für den kleinsten
Index i ∈ {1, 2}. Wegen
λsup (1) =
10
2
=5
λsup (2) =
18
−3
= −6
λsup (3) =
13
2
= 6, 5
ist λsup = λsup (1) und wir nehmen x3 aus der Basis, da in der ersten Zeile die Basiseins
von x3 steht.
−z
s
1
x1 x2 x3 x4 x5
2
1
10
−3 6
1
18
2
1
1 13
−1 −1
0
•
λsup (k)
10/2 = 5 •
18/ − 3 = −6
13/2 = 6, 5
Multipliziere die erste Zeile mit 12 und addiere Vielfache zu den übrigen Zeilen, damit
in der x1 -Spalte der erste Einheitsvektor e1 steht:
−z x1
1
1
x2
x3 x4 x5
0, 5
5
6 1, 5 1
33
1 −1
1 3
−1 0, 5
5
Aus dem Tableau erhalten wir als Basislösung x = (5, 0, 0, 33, 3) mit Zielwert −5
und Schattenpreisen (0, −1, 12 , 0, 0). In Abbildung 2 entspricht dies dem Punkt I. Im
nächsten Schritt nimm x2 in die Basis auf. Wegen
λsup (1) = +∞
λsup (2) =
33
6
= 5, 5
ist λsup = λsup (3) und wir entfernen x5 aus der Basis:
−z x1 x2
1
1
1
x3
x4 x5
0, 5
5
7, 5
1 −6 15
−1
1
3
−0, 5
1
8
λsup (3) =
3
1
=3
168
Aus dem Tableau erhalten wir als Basislösung x = (5, 3, 0, 15, 0) mit Zielwert −8 und
Schattenpreisen (0, 0, − 12 , 0, −1). In Abbildung 2 entspricht dies dem Punkt II. Im
letzten Schritt nimm x3 in die Basis auf. Wegen
λsup (1) =
5
0,5
= 10
λsup (2) =
15
7,5
=2
λsup (3) =
3
−1
= −3
ist λsup = λsup (2) und wir entfernen x4 aus der Basis:
−z x1 x2 x3
x4
x5
1
−0, 06 0, 4
1
0, 13 −0, 8
1
0, 13
0, 2
1
0, 06
0, 6
4
2
5
9
Die erreichte Lösung ist optimal, da alle Schattenpreise der Nichtbasisvariablen positiv
sind. Der optimale Wert ist x = (4, 5, 2, 0, 0) bzw. Punkt III in Abbildung 2. Der
optimale Zielwert ist −9.
Es exisitiert ebenfalls eine Kurzform der Simplex-Tableaus, wie sie zum Beispiel in
[Fischer92] verwendet wird. Die Koeffizientenvektoren der geordneten Basisvariablen
haben stets die Form einer Einheitsmatrix und die zugehörigen Schattenpreise sind
Null, so dass die Angaben im Simplex-Tableau redundant sind. In der Kurzform
schreibt man die Basisvariablen links und läßt die zugehörigen Spalten weg, der Wert
rechts ist der Wert der Basisvariablen. Das Ausgangstableau des zuvor behandelten
Programms lautet in dieser Form:
x1 x2
x3 2
10
x4 −3 6 18
x5 2
1 13
−z 1
1 0
Aus den Regeln für das Rechnen im erweitertern Simplex-Tableau lassen sich die
Regeln für die Kurzform herleiten. Diese sind aber komplizierter und anfälliger für
Rechenfehler gegenüber des erweiterten Tableaus.
Zum Abschluß wollen wir noch die Fälle von Degeneration und Mehrdeutigkeit
im allgemeinen Simplex-Tableau betrachten. Eine Basislösung bzw. die zugehörige
Basis-Nichtbasis-Partition ist degeneriert, wenn ein i ∈ B mit xi = 0 existiert, also
eine Basisvariable xi = 0 ist. Da die Werte der Basisvariablen in der Spalte rechts
stehen, bedeutet eine Null in diesen Feldern, dass die aktuelle Basislösung degeneriert
ist. Zum Beispiel beschreibt das folgende Tableau eine degenerierte Ecke, denn die
Basisvariable x2 ist gleich 0:
−z x1 x2 x3 x4 x5
1
9 3
2 8 1
1 7 1
1
3 1
4
2
0
6
Im Fall von Mehrdeutigkeit gibt es mindestens zwei optimale Ecken. Wenn wir eine
optimale Lösung gefunden haben, sind alle Schattenpreise der relativen Zielfunktion
5. Dualität
169
größer oder gleich 0. Um zu einer Ecke mit gleichem Zielwert zu gelangen, kommen nur
Nichtbasis-Variablen mit Schattenpreis Null in Frage, denn in diesem Fall addieren
wir kein Vielfaches zur relativen Zielfunktion, um den entsprechenden Eintrag zu
löschen. Zum Beispiel beschreibt das folgende Tableau eine optimale Ecke im Fall
von Mehrdeutigkeit:
−z x1 x2 x3 x4 x5
1
2 8
1 3 1
1 3 9
−1
3 0
4
2
8
6
Wir ersetzen die Basisvariable x5 durch x3 , das neue Simplex-Tableau hat folgende
Form:
−z x1 x2 x3 x4 x5
1
2 −2 0
1 3
1 2
1
0 −3 2
1
0 3
6
Diese ebenfalls optimale Ecke ist wegen x1 = 0 ferner degeneriert. Man erkennt Mehrdeutigkeit im Simplex-Tableau, wenn für eine optimale Lösung (d.h. kein Schattenpreis ist negativ) der Schattenpreis einer Nichtbasis-Variablen auch verschwindet und
diese Variable in der Basis aufgenommen werden kann.
5. Dualität
In einer Unterhaltung mit Dantzig hatte John von Neumann 1947 die grundlegenden Begriffe der Dualität in der linearen Programmierung eingeführt. Er ordnete
einem linearen Programm (primales Programm)
LP
minimiere cT x, so dass Ax ≥ b
x ≥ 0,
ein duales Programm zu, wobei beide optimalen Werte übereinstimmen, sofern das
primale Programm weder unbeschränkt noch widersprüchlich ist.
Def inition 13.17 (Duales Programm). Das duale lineare Programm zu einem linearen Programm in kanonische Form lautet:
LP*
maximiere bT y,
so dass AT y ≤ c
y ≥ 0.
Während das primale Programm eine Mimimierungsaufgabe ist, soll beim dualen
Programm die Zielfunktion maximiert werden. Offenbar ist das duale Programm des
dualen Programms das primale Ausgangsprogramm. Wir bezeichnen mit Z und Z ∗
die Zulässigkeitsbereiche des primalen und des dualen Programms in kanonischer
Form. Unser Ziel ist zu zeigen, dass der Zielwert von primalen und dualem Programm
(sofert ein Programm beschränkt und das Restriktionssystem nicht widersprüchlich
ist) übereinstimmen.
170
Lemma 13.18 (Schwache Dualität). Für x ∈ Z und y ∈ Z ∗ gilt bT y ≤ cT x.
Beweis. Wegen Ax ≥ b und y ≥ 0 gilt bT y ≤ (Ax)T y = xT AT y. In Verbindung mit
AT y ≤ c und y ≥ 0 erhalten wir
bT y ≤ xT (AT y) ≤ xT c
und mit xT c = cT x folgt die Behauptung.
Sofern die Zulässigkeitsbereiche
leer sind, liefert jede duale Lösung y ∈ Z ∗ eine
T nicht untere Schanke für min c x x∈ Z und jede primale Lösung x ∈ Z eine obere
Schranke für max bT y y ∈ Z ∗ . Aus der schwachen Dualität folgt für das primale
und zugehöriges duales Programm:
• Falls eines der Programme unbeschränkt ist, sind die Restriktionen des anderen Programms widersprüchlich.
• Im Fall eines widersprüchlichen Programms ist das andere entweder ebenfalls
widerspüchlich oder der Zielwert ist unbeschänkt (Es gibt Beispiele für beide
Fälle).
Aus der schwachen Dualität erhalten wir ein Optimalitätskriterium: Eine primale
Lösung x ∈ Z ist optimal, wenn eine duale Lösung y ∈ Z ∗ mit bT y = cT x existiert.
Die Umkehrung dieser Aussage ist die sogenannte starke Dualität:
Satz 13.19 (Dualität). Falls die Restriktionssysteme des primalen Programms LP in
kanonischer Form und des zugehörigen dualen Programm LP* nicht widerspüchlich
sind, stimmen beide, optimalen Zielwerte überein.
Beweis. Wegen der schwachen Dualität, Lemma 13.18, genügt zu zeigen, dass x ∈ Z
und y ∈ Z ∗ mit cT x ≤ bT y existieren. Aus der Variante von Farkas’ Lemma in
Korollar 12.43 auf Seite 149 folgt, dass für beliebiges c0 ∈ R die nachstehenden
Aussagen äquivalent sind:5
a) Es existiert ein x ≥ 0 und Ax ≥ b mit cT x ≤ c0 .
−A
−b
b) Es existiert ein x ≥ 0 mit
x≤
.
T
c
c0
−A
y
T
λ
c) Für alle
≥ 0 mit y
≥ 0 gilt −bT
λ
cT
c0
y
·
≥ 0.
λ
d) Für alle y ≥ 0 und λ ≥ 0 mit AT y ≤ λc gilt λc0 ≥ bT y.
e) Für alle y ≥ 0 mit AT y ≤ c gilt c0 ≥ bT y.
Angenommen, für alle y ∈ Z ∗ gilt bT y ≤ c0 < min cT x x ∈ Z für ein geeignetes
c0 . Dann existiert eine primale Lösung x ∈ Z mit cT x ≤ c0 im Widerspruch zur Wahl
von c0 kleiner als der optimale, primale Zielwert.
5Für den Beweis der Implikation d)⇒e)“ wähle λ = 1. Für die Rückrichtung e)⇒d)“ unter-
”
”
scheide die beiden Fälle λ > 0 und λ = 0. Für λ > 0 folgert man Aussage d) aus e) mit y := λ−1 y.
Um die Behauptung, für alle y ≥ 0 mit AT y ≤ 0 gilt bT y ≤ 0, zu folgern, wähle x0 ∈ Z (existiert
nach Voraussetzung): Wegen Ax0 ≥ b, AT y ≤ 0 und x0 , y ≥ 0 gilt dann bT y ≤ xT0 AT y ≤ 0.
5. Dualität
171
Obwohl von Neumann diesen Satz bereits 1947 formulierte und bewies, ist er erst
1951 explizit in einer Arbeit von Tucker, Kuhn und Gale erschienen. Auch einem
linearen Programm in Standardform,
LPstd
minimiere cT x, so dass Ax = b
x ≥0
ordnet man ein duales Programm zu (beachte, y sind freie Variablen):
maximiere bT y,
LP* std
so dass AT y + s = c
s ≥ 0.
∗
Für die Standardform gilt auch die schwache Dualität, d.h. für x ∈ Zstd und y ∈ Zstd
ist bT y ≤ cT x, denn
bT y = (Ax)T y = xT (AT y) ≤ xT c.
Der Dualitätssatz, die Gleichheit der optimalen Zielwerte, überträgt sich ebenfalls
(siehe Übungsaufgabe 16.3):
Korollar 13.20 (Dualität). Hat das primale Programm LPstd in Standardform eine
optimale Lösung, so auch das duale Programm LP* std und beide Zielwerte stimmen
überein.
Zum Abschluß geben wir eine Motivation des dualen Programms basierend auf
den Simplex-Tableaus. Zum linearen Programm in Standardform
LPstd
minimiere cT x, so dass Ax = b
x ≥0
wird eine weitere Variable −z und eine zusätzliche Restriktion −z + cT x = 0 hinzugefügt, das neues Ziel ist die Minimierung von z. Bezogen auf das Tableau
−z
x
0
A
b
1
cT
0
subtrahiert man Vielfache der oberen Zeilen von der Zielzeile, um den Wert im Feld
rechts unten zu maximieren. Bezeichne y die Vielfachen, so steht in der letzten Zeile
der Vektor der Schattenpreise s := c − AT y. Wir haben eine optimale Lösung x
gefunden, dann und nur dann, wenn die Schattenpreise s ≥ 0 sind. Aufgrund6
xT s = xTB sB + xTN sN = 0
|{z} |{z}
=0
=0
und Ax = b gilt:
0 = xT s = xT c − xT AT y = cT x − bT y.
(36)
6Wegen x, s ≥ 0 muß für alle i entweder x oder s Null sein. Man nennt dies komplementäre
i
i
Slackness.
172
Die Minimierung von cT x ist daher gleichwertig zur Maximierung von bT y. Beim
Rechnen im Simplex-Tableau haben wir durch die Multiplizierer y und die Schattenpreise s eine Lösung des dualen linearen Programms ermittelt:
LP* std
maximiere bT y, so dass AT y + s = c
s ≥ 0.
Gleichung (36) liefert die starke Dualität: Die optimalen Zielwerte des primalen und
des dualen Programms stimmen, sofern einer endlich ist, überein. Kombiniert man
primales und duales Programm, ergibt sich ein System linearer Ungleichungen:
Ax = b
AT y + s = c
cT x − bT y = 0
(37)
x, s ≥ 0
Das Finden einer Lösung (x, y, s) ist gleichwertig zur linearen Programmierung, denn
x stellt in diesem Fall wegen der starken Dualität eine optimale Lösung des primalen
Ausgangsprogramms dar. Faßt man (37) als Restriktionen für ein lineares Programm
auf, so ist bereits das Finden einer Startecke für den Simplex-Algorithmus äquiva”
lent“ zum linearen Programmieren.
Kapitel 14
Reelle und komplexe
Vektorräume
In diesem Abschnitt untersuchen wir Linear-, Bilinear- und quadratische Formen. Der
duale Vektorraum wird eingeführt und wir gehen ausführlich auf Skalarprodukte im
Rn und im Cn ein. Wir betrachten symmetrische, orthogonale (hermitesche,unitäre)
Matrizen und die zugehörigen Endomorphismen.
1. Dualität linearer Räume
Zu einem K-Vektorraum V haben wir in Kapitel 6 auf Seite 63 die Bezeichnung
Lin(V, K) := {` : V → K | ` ist Homomorphismus }
für die Menge der linearen Abbildungen ` : V → K eingeführt. Nach Satz 6.2 ist
Lin(V, K) mit Addition und skalarer Multiplikation
(`1 + `2 )(v) := `1 (v) + `2 (v)
(λ · `)(v) := λ · `(v)
für `1 , `2 , ` ∈ Lin(V, K) und λ ∈ K ein K-Vektorraum.
Sei b1 , . . . , bn eine Basis von V . Gibt es eine zugehörige Basis von Lin(V, K)?
Definiere lineare Abbildungen `1 , . . . , `n ∈ Lin(V, K) gemäß
(
1 falls i = j
ì (bj ) = δi,j =
0 sonst.
Solche linearen Abbildungen existieren und sind eindeutig bestimmt, denn die Bilder
der Basisvektoren charakterisieren eine lineare Abbildung eindeutig.
Satz 14.1. Sei V ein endlich-dimensionaler K-Vektorraum mit Basis b1 , . . . , bn ∈
V . Dann bilden `1 , . . . , `n ∈ Lin(V, K) mit ì (bj ) = δi,j eine Basis von Lin(V, K).
Insbesondere ist dim V = dim Lin(V, K).
173
174
14. Reelle und komplexe Vektorräume
Beweis.
Die Abbildungen `1 , . . . , `n ∈ Lin(V, K) sind linear unabhängig, denn aus
Pn
λ
`
i=1 i i ≡ 0 (Nullabbildung) folgt
0=
n
X
λi ì (bj ) = λj `j (bj ) = λj
i=1
für alle j = 1, . . . , n. Zu zeigen bleibt, dass die Abbildungen `1 , . . . , `n ∈ Lin(V, K)
den Raum Lin(V, K) erzeugen. Zu ` ∈ Lin(V, K) definiere λi := `(bi ) und
0
` :=
n
X
λi · ì ∈ span(`1 , . . . , `n ).
i=1
Die Bilder der Basisvektoren b1 , . . . , bn der beiden Funktionen ` und `0 stimmen überein
`(bi ) = λi = `0 (bi ),
so dass ` = `0 ist. Die linearen Abbildungen `1 , . . . , `n ∈ Lin(V, K) erzeugen folglich
Lin(V, K).
In Satz 14.1 verwenden wir implizit dim V < ∞, weil nur endliche Summen allgemein
erklärt sind.
Def inition 14.2 (Dualer Vektorraum, duale Basis). Sei V ein K-Vektorraum mit
Basis b1 , . . . , bn ∈ V . Dann heißt L∗ := Lin(V, K) der duale Vektorraum (Dualraum)
zu V und `1 , . . . , `n ∈ Lin(V, K) mit ì (bj ) = δi,j ist die duale Basis zu b1 , . . . , bn ∈ V .
Bei der Definition der dualen Basis ist die Rolle von ì und bi symmetrisch. Jeder
Vektor b ∈ V operiert als lineare Abbildung auf Lin(V, K) gemäß
b:
Lin(V, K) → K
`
7→ `(b).
Es gilt:
Korollar 14.3. Sei V ein endlich-dimensionaler K-Vektorraum. Dann gilt:
(V ∗ )∗ = V.
Betrachten wir den Fall V = Kn . Es gilt Lin(Kn , K) ∼
= Kn , die lineare Abbildung
n
` ∈ Lin(K , K) läßt sich schreiben als
`(x1 , . . . , xn ) =
n
X
ai xi
i=1
mit den Koeffizienten ai := `(ei ) für die kanonischen Einheitsvektoren e1 , . . . , en . Man
nennt das formale Polynome
`=
n
X
ai Xi ∈ K[X1 , . . . , Xn ]
i=1
eine Linearform in den Variablen X1 , . . . , Xn .
1. Dualität linearer Räume
175
Def inition 14.4 (Annulator, Nullstellenmenge). Sei V ein endlich-dimensionaler
K-Vektorraum. Zu M ⊆ V heißt
M 0 := {` ∈ V ∗ | `(m) = 0 für alle m ∈ M }
Annulator von M . Zu L ⊆ V ∗ nennt man
L0 := {v ∈ V | `(v) = 0 für alle ` ∈ L }
die Nullstellenmenge von L.
Eine Teilmenge I ⊆ K[X1 , . . . , Xn ] heißt Polynomideal, wenn (I, +) eine abelsche
Gruppe ist und I · K[X1 , . . . , Xn ] ⊆ I.1 Zu M ⊆ Kn ist der Annulator
M 0 = {p ∈ K[X1 , . . . , Xn ] | p(x) = 0 für alle x ∈ M }
ein Polynomideal. Zum Ideal I ⊆ K[X1 , . . . , Xn ] ist die Nullstellenmenge I 0 ⊆ Kn
eine Manigfaltigkeit mit
(I 0 )0 ⊇ I.
(I 0 )0 ist ein Radikalideal, es enthält zu f auch jedes Polynom g mit g q = f für q ∈ N.
Für Radikalideale I gilt (I 0 )0 = I.
Satz 14.5. Sei V ein endlich-dimensionaler K-Vektorraum und U ⊆ V ein Untervektorraum. Dann ist der Annulator U 0 ⊆ V ∗ von U ein Untervektorraum von V ∗ ,
so dass gilt
dim U + dim U 0 = dim V
und (U 0 )0 = U .
Beweis. Sei b1 , . . . , bm eine Basis von U und b1 , . . . , bm , . . . , bn eine Basis von V . Sei
`1 , . . . , `n ∈ V ∗ die duale Basis zu b1 , . . . , bn . Dann gilt:
U 0 ⊆ span(`m+1 , `m+2 , . . . , `n ).
Somit ist
dim U + dim U 0 = m + (n − m) = n = dim V.
Offenbar gilt (U 0 )0 = span(b1 , . . . , bm ) = U .
Zum Abschluß wollen den dualen Vektorrraum mit dem dualen Code aus Kapitel 7 vergleichen und Gemeinsamkeiten aufzeigen. Zu einem Körper K ist ein linearer
Code ein Untervektorraum C des Vektorraums Kn . Der zu C dualen Code ist nach
Definition 7.19 auf Seite 78 erklärt als
C ⊥ := u ∈ Kn cT u = 0 für alle c ∈ C
Es gilt C 0 ∼
= C ⊥ , dim C + dim C ⊥ = dim V und (C ⊥ )⊥ = C. Der Annulator C 0
und der duale Code C ⊥ sind in verschiedene Räume, nämlich Kn und Lin(Kn , K)
eingebettet.
1D.h. mit f ∈ I und g ∈ K[X , . . . , X ] liegt auch das Produkt f g im Ideal I.
1
n
176
2. Bilineare, Sesquilineare und quadratische
Formen
Sei K ein Körper und V ein K-Vektorraum. Eine Abbildung s : V × V → K nennen
wir Bilinearform, wenn sie in jeder Komponente linear ist:
Def inition 14.6 (Bilinearform). Sei V ein K-Vektorraum. Eine Abbildung s : V ×
V → K heißt bilinear (Bilinearform) auf V , wenn für alle u, v, w ∈ V und λ ∈ K gilt:
(B1) s(u + v, w) = s(u, w) + s(v, w) und s(λv, w) = λs(v, w).
(B2) s(u, v + w) = s(u, v) + s(u, w) und s(v, λw) = λs(v, w).
Eine Bilinearform s : V × V → K heißt symmetrisch, wenn s(v, w) = s(w, v) für alle
v, w ∈ V .
Das kanononische Skalarprodukt h·, ·i : Rn × Rn → R mit hv, wi = v T w induziert eine symmetrische Bilinearform auf Rn . Welche Bilinearformen stellen ihrerseits
Skalarprodukte dar?
Def inition 14.7 (Positiv definite Bilinearform). Eine Bilinearform s : V × V → R
eines R-Vektorraums V heißt positiv definit, wenn für alle v ∈ V gilt:
a) s(v, v) ≥ 0.
b) s(v, v) = 0 gdw. v = 0.
Aus der Definition auf Seite 176 folgt unmittelbar:
Satz 14.8. Sei V ein R-Vektorraum und s : V × V → R eine Bilinearform. Genau
dann ist s symmetrisch und positiv definit, wenn s ein Skalarprodukt ist.
Betrachten wir ein weiteres Beispiel eines Skalarprodukts. Sei I := [a, b] ⊆ R ein
Intervall und V := C(I, R) der R-Vektorraum der stetigen Funktionen f : I → R. Die
Abbildung V × V → R mit
Z b
(f, g) 7→
f (t)g(t)dt
a
ist eine symmetrische, positiv definite Billinearform, also ein Skalarprodukt auf dem
Vektorraum C(I, R).
Sei B = {b1 , . . . , bn } ⊂ V eine geordnete Basis des K-Vektorraums V . Zum Vektor
Bt =
n
X
ti b i ∈ V
i=1
nennen wir t ∈ Kn den Koordinatenvektor von Bt. Eine Bilinearform s : V × V → K
wird zur Basis B durch die Matrix
MB (s) := s(bi , bj ) 1≤i,j≤n ∈ Mn,n (K)
dargestellt. Es gilt:
s(Bt, Bt0 ) = tT · MB (s) · t0 .
(38)
2. Bilineare, Sesquilineare und quadratische Formen
177
Man kann sich leicht überlegen, dass zu zwei Bilinearformen s, s0 ihre Summe s + s0
mit (s + s0 )(v, w) = s(v, w) + s0 (v, w) ebenfalls eine Bilinearform ist, ebenso skalare Vielfache. Die Menge der Bilinearformen eines K-Vektorraums ist folglich ein KVektorraum. Da jede n × n-Matrix über K eine Bilinearform definiert und umgekehrt,
gilt:
Korollar 14.9. Sei V ein K-Vektorraum der Dimension n := dim V . Dann ist der
K-Vektorraum der Bilinearformen auf V isomorph zu Kn×n .
Seien A und B Basen eines K-Vektorraums V . Dann existiert eine invertierbare
Matrix2 T ∈ GLn (K) für den Basiswechsel von B zu A, also A = BT . Der Kordinatenvektor zu b = At bezüglich der Basis B ist gegeben durch T t, denn
b = At = (BT )t = B(T t).
Für die darstellende Matrix einer Bilinearform gilt folgende Transformationsformel
beim Basiswechsel:
Korollar 14.10. Seien A und B Basen eines K-Vektorraums mit A = BT . Dann gilt
für die darstellende Matrix einer Bilinearform s : V × V → K:
MB (s) = T T · MA (s) · T.
Beweis. Nach Gleichung (38) gilt:
s(Bt, Bt0 ) = tT · MB (s) · t0
= (T t)T · MA (s) · (T t0 )
= tT · T T · MA (s) · T · T t0 .
Es folgt MB (s) = T T · MA (s) · T .
Zum Vergleich: Für einen Endomorphismus f : V → V lautet die Transformationsformel aus Gleichung (15) auf Seite 68:
MB (f ) = T −1 · MA (f ) · T.
Aus Korollar 14.10 folgt, dass wie bei Endomorphismen der Rang der Darstellungsmatrix unabhängig von der Wahl der Basis ist:
Def inition 14.11 (Rang einer Bilinearform). Der Rang einer Bilinearform s : V ×
V → K ist der Rang rang(MB (s)) der Darstellungsmatrix bezüglich einer Basis B des
Vektorraums V .
Def inition 14.12 (Positiv definite Matrix). Eine reelle, quadratische Matrix A ∈
Mn,n (R) heißt positiv definit, wenn xT Ax ≥ 0 für alle x ∈ Rn und xT Ax = 0
gdw. x = 0.
Offenbar gilt:
−1
2Zur Erinnerung: GL (K) = A ∈ M
existiert ist die Gruppe der invertierbaren
n
n,n (K) A
n × n-Matrizen über K.
178
Korollar 14.13. Sei V ein R-Vektorraum mit Basis B und s : V × V → R eine
Bilinearform. Genau dann ist s ein Skalarprodukt auf V , wenn die Matrix MB (s)
symmetrisch und positiv definit ist.
Für den reellen Vektorraum Rn ist hv, wi = v T w das Standardskalarprodukt.
Auch für den komplexen Vektorraum Cn gibt es ein kanonisches Skalarprodukt:3
n
X
T
vi wi .
hv, wiC = v w =
i=1
1
2 -linear),
Die Abbildung h·, ·iC ist sesquilinear (d.h. 1 +
es gilt hv, wiC = hw, viC und
hv, viC ∈ R≥0 sowie die Äquivalenz hv, viC = 0 gdw. v = 0.
Def inition 14.14 (Sesquilinearform). Sei V ein C-Vektorraum. Eine Abbildung s :
V × V → C heißt sesquilinear (Sesquilinearform) auf V , wenn für alle u, v, w ∈ V
und λ ∈ C gilt:
(SE1) s(u + v, w) = s(u, w) + s(v, w) und s(λv, w) = λ · s(v, w).
(SE2) s(u, v + w) = s(u, v) + s(u, w) und s(v, λw) = λ · s(v, w).
Eine Sesquilinearform h : V × V → C heißt hermitesch (hermitesche Form), wenn
h(v, w) = h(w, v) für alle v, w ∈ V .
Für hermitesche Formen h gilt h(v, v) = h(v, v), so dass h(v, v) stets reell ist:
Def inition 14.15 (Positiv definite, hermitesche Form). Eine hermitesche Form h :
V × V → C eines C-Vektorraums V heißt positiv definit, wenn für alle v ∈ V gilt:
a) h(v, v) ≥ 0.
b) h(v, v) = 0 gdw. v = 0.
Zu einem reellen Vektorraum V nennt man eine symmetrische Bilinearform, die
positiv definit ist, Skalarprodukt auf V . Für komplexe Vektorräume heißen hermitesche Formen, die positiv definit sind, Skalarprodukte:
Def inition 14.16 (Skalarprodukt). Sei V ein C-Vektorraum. Eine hermitesche Form
h : V × V → C heißt Skalarprodukt auf V , wenn h positiv definit ist.
Def inition 14.17 (Hermitische und positiv definite Matrix). Eine Matrix A ∈
Mn,n (C) heißt
a) hermitesch, wenn A = AT .
b) positiv definit, wenn xT Ax ∈ R≥0 für alle x ∈ Cn und xT Ax = 0 gdw. x = 0.
Für eine Matrix A mit reellen Einträgen bedeutet A = AT wegen A = A, dass die
Matrix symmetrisch ist.
Korollar 14.18. Sei V ein C-Vektorraum mit Basis B und s : V × V → C eine
Bilinearform. Genau dann ist s ein Skalarprodukt auf V , wenn die Matrix MB (s)
hermitesch und positiv definit ist.
3Zur Erinnerung: Zu a + ib ∈ C ist die konjugierte komplexe Zahl a + ib = a − ib. Die Abbildung
x 7→ x ist ein Automorphismus des Körpers C mit x = x. Es gilt y = y gdw. y ∈ R. Für z = a + ib ∈ C
gilt zz = a2 + b2 ∈ R.
2. Bilineare, Sesquilineare und quadratische Formen
179
Wir haben bereits in Kapitel 11 den Begriff euklidischer Vektorraum“ für einen
”
reellen Vektorraum in Verbindung mit einem Skalarprodukt verwendet:
Def inition 14.19 (Euklidischer bzw. unitärer Vektorraum). Ein euklidischer
(unitärer) Vektorraum V ist ein R-Vektorraum (C-Vektorraum) zusammen mit einem Skalarprodukt auf V .
Wir ordnen jeder Bilinearform eine quadratische Form zu:
Def inition 14.20 (Quadratische Form). Sei s : V × V → K eine Bilinearform auf
einem K-Vektorraums V . Die zugehörige, quadratische Form q : V → K ist erklärt
durch q(v) := s(v, v).
Ist die Bilinearform durch s(Bt, Bt0 ) = t·MB (s)·t0 gegeben, gilt für die zugehörige,
quadratische Form
q((Bt) = t · MB (s) · t.
Faßt man die Koordinaten t1 , . . . , tn von t als formale Variable auf, gilt q ∈ K[t1 , . . . , tn ].
Dies ist ein quadratisches Polynom, homogen vom Grad 2.
Satz 14.21. Sei K ein Körper mit Charakteristik4 char(K) 6= 2. Für die zugehörige,
quadratische Form q einer symmetrischen Bilinearform s : V × V → K auf dem
K-Vektorrraum gilt:
s(v, w) = 21 q(v + w) − q(v) − q(w) .
Beweis. Aus der Bilinearität von s folgt:
(1 + 1) · s(v, w) = s(v + w, w) − s(w, w) + s(v, w + v) − s(v, w) .
|
{z
} |
{z
}
=s(v,w)
=s(v,w)
Wegen der Voraussetzung char(K) 6= 2 ist 1 + 1 6= 0 und wir können durch (1 + 1)
dividieren.
In Satz 11.12 auf Seite 123 haben wir die Cauchy-Schwarz-Ungleichung bereits für
euklidische Vektorräume bewiesen.
Satz 14.22 (Cauchy-Schwarz-Ungleichung). In jedem euklidischen oder unitärem
Vektorraum V gilt für v, w ∈ V :
|hv, wi| ≤ kvk · kwk .
Der Beweis der Cauchy-Schwarz-Ungleichung, den wir im folgenden geben, basiert
auf folgenden Satz aus [Fischer92]:
4Wir führen die Charakteristik eines Körpers in Kapitel 15 ein. Die Charakteristik der Körper Q,
R und C ist zum Beispiel Null, die der endlichen Körper Zp ist gleich p. Für Körper mit char(K) 6= 2
gilt 1 + 1 6= 0.
180
Fakt 14.23 (Determinanten-Multiplikations-Theorem). Sei A = (a1 , . . . , an ) ∈ Mm,n (K)
und B = (b1 , . . . , bm ) ∈ Mn,m (K). Dann gilt für für die m × m-Matrix AB T :
X
det(AB T ) =
det(ai1 , . . . , aim ) · det(bi1 , . . . , bim ).
1≤i1 ≤···≤im ≤n
Insbesondere ist det AB T = 0 für n < m.
Aus dem Determinanten-Multiplikations-Theorem folgern wir, dass für jede m × nMatrix A über einem Körper K gilt:
X
det AAT =
det(ai1 , . . . , aim )2 .
1≤i1 ≤···≤im ≤n
Speziell:
a) Für K = R gilt det AAT ≥ 0.
b) Für K = C ist det AAT eine reelle Zahl größer oder gleich Null.
Wir wollen nun die Cauchy-Schwarz-Ungleichung aus Satz 14.22 beweisen. O.B.d.A. sei
V = Cn . Zu v = (v1 , . . . , vn )T ∈ Cn und w = (w1 , . . . , wn )T ∈ Cn erkläre
T v
v1 · · · vn
A :=
=
∈ M2,n (C).
wT
w1 · · · wn
Für die Determinante der Matrix
T
AA =
hv, vi hv, wi
hw, vi hw, wi
gilt nach vorherigen Folgerungen aus dem Determinanten-Multiplikations-Theorem:
det AAT = hv, vi · hw, wi − hv, wi · hw, vi
= kvk2 · kwk2 − |hv, wi|2
≥ 0.
Also |hv, wi|2 ≤ kvk2 · kwk2 . Für die Gleichheit haben wir folgende Äquivalenz:
|hv, wi|2 = kvk2 · kwk2
⇐⇒
det AAT = 0.
Die Forderung det AAT = 0 ist gleichbedeutend damit, dass die 2 × 2-Matrix AAT
nicht vollen Rang hat, d.h. der Rang von A ist maximal 1.
|hv, wi|2 = kvk2 · kwk2
⇐⇒
v, w linear abhängig.
Wir geben einen weiteren Beweis der Cauchy-Schwarz-Ungleichung aus Satz 14.22
in Übungsaufgabe 19.1 mit Hilfe einer Isometrie5 ψ : span(v, w) → C2 mit ψ(v) ∈
(0, 1)T C.
5D.h. hv, wi = hψ(v), ψ(w)i für alle v, w.
3. Hauptachsentransformation symmetrischer Matrizen
181
3. Hauptachsentransformation symmetrischer
Matrizen
Der zentrale Satz dieses Abschnitt lautet:
Satz 14.24. Für symmetrische Matrizen A ∈ Mn,n (R) sind folgende Aussagen äquivalent:
a) A ist positiv definit.
b) Es existiert eine invertierbare Matrix T ∈ GLn (R) mit A = T T T .
Vor dem Beweis zu Satz 14.24 folgern wir:
Korollar 14.25. Im Rn geht jedes Skalarprodukt h·, ·i : Rn × Rn → R durch einen
Basiswechsel aus dem kanonischen Skalarprodukt h·, ·ikan hervor.
Beweis. Sei I = {e1 , . . . , en } die Standardbasis des Rn und B = IT eine weitere
Basis (mit Transformationsmatrix T ). Dann gilt:
hIt, Isikan = ht, sikan = tT s.
Sei andererseits h·, ·i ein beliebiges Skalarprodukt auf den Koordinatenvektoren.
Mit A := T T T gilt:
ht, si = tT As
Sei A := BT . Der Koordinatenvektor zu b := Bt ∈ Rn bezüglich A ist s := T −1 t,
denn
b = Bt = BT T −1 t = As.
Der Koordinatenvektor zu b0 := Bt0 ∈ Rn bezüglich A ist s0 := T −1 t0 . Das kanonische
Skalarprodukt zur Basis A ist:
0
0
T
b, b kan = Bt, Bt0 kan = T t, T t0 kan = tT T
| {zT} t .
=:A
Das kanonische Skalarprodukt geht beim Basiswechsel in ein beliebiges Skalarprodukt
der Koordinantenvektoren über.
Wir kommen zum Beweis von Satz 14.24:
Beweis. Die Rückrichtung von von Satz 14.24 ist offensichtlich:
tT T T T t = (T t)T · (T t) ≥ 0.
Sei A = (ai,j )1≤i,j≤m symmetrisch und positiv definit. Für die obere Dreiecksmatrix

a13
a1n 
1 − aa12
−
·
·
·
−
a
a11
11
11
0

1
0
·
·
·
0


 ..
.. 
..
..
T1 :=  .
∈ ODn (R)
(39)
.
.
. 


0 · · ·

···
1
0
0 ···
···
0
1
182
gilt:
T1T AT1
=
a11 0
.
0 A0
Weil A positiv definit ist, gilt a11 > 0 und A0 ist ebenfalls positiv definit. Wende
die entsprechende Transformationsmatrix induktiv auf A0 an. Es existiert ein Tn ∈
GLn (R) mit


a11 0 · · · · · ·
0
 0 a22
0 


 ..
.. 
..
..
T

.
.
. 
D := Tn ATn =  .



..
 0
. 0
0
0 
0
0 · · · 0 ann
√
√
√
√
Setze T := Tn / D mit D := Diag( a11 , . . . , ann ). Dann gilt T T AT = In .
Falls die Matrix A über einem beliebigem Körper K ist, können wir, sofern A 6= 0,
o.B.d.A. a11 6= 0 in Gleichung (39) voraussetzen (permutiere gegenenfalls die Zeilen
und Spalten von A derart, dass die erste Zeile von A nicht Null ist). Führt man den
Beweis wie in Satz 14.24, folgt:
Korollar 14.26. Sei K ein Körper und A ∈ Mn,n (K) eine symmetrische Matrix.
Dann gibt es ein T ∈ GLn (K), so dass D := T T AT eine Diagonalmatrix ist bzw. es
gilt A = (T −1 )T DT −1 .
Wir folgern weiter aus dem Beweis zu Satz 14.24:
Korollar 14.27. Sei A ∈ Mn,n (R) eine symmetrische Matrix. Dann gibt es ein
T ∈ GLn (R) mit D = T T AT für eine Diagonalmatrix D mit Einträgen aus {±1, 0}.
Beweis. Wegen Korollar 14.26 sei o.B.d.A. A eine Diagonalmatrix:


a11 0 · · · · · ·
0
 0 a22
0 


 ..
.. 
..
..

.
.
. 
A= .



..
 0
. 0
0
0 
0
0 · · · 0 ann
Definere die Matrix T = (tij )1≤i,j≤n gemäß

√1

falls i = j und aii > 0.

aii


√ 1
falls i = j und aii < 0.
−aii
tij :=

1
falls i = j und aii = 0.




0
falls i 6= j.
Offenbar ist D := T T AT eine Diagonalmatrix mit Einträgen aus {±1, 0}.
3. Hauptachsentransformation symmetrischer Matrizen
183
Korollar 14.28. Sei V ein R-Vektorraum und s : V × V → R eine Bilinearform.
Dann gibt es eine Basis B sowie eine Diagonalmatrix D mit Einträgen aus {±1, 0},
für die gilt:
s(Bt, Bt0 ) = tT Dt0 .
Wir haben in Definition 14.7 auf Seite 176 eine Bilinearform s : V × V → R eines
R-Vektorraums V positiv definit genannt, wenn für alle v ∈ V
a) s(v, v) ≥ 0
b) s(v, v) = 0 gdw. v = 0
gilt. Wir wollen die Bezeichung negativ definit“ für den Fall, dass s(v, v) ≤ 0 für alle
”
v ∈ V ist, einführen:
Def inition 14.29 (Negativ definite und indefinite Bilinearform). Eine Bilinearform
s : V × V → R eines R-Vektorraums V heißt negativ definit, wenn −s positiv definit ist. Die Bilinearform nennt man indefinit, wenn s(v, v) sowohl negative als auch
positive Werte annimmt.
Def inition 14.30 (Degeneriete Bilinearform). Eine Bilinearform s : V × V → R
eines R-Vektorraums V nennt man degeneriert, wenn für ein v ∈ V \ {0} gilt s(v, ·) ≡
0.
Zu einer Bilinearform s : V × V → R ist der Nullraum N(s) erklärt als die Menge
aller Vektoren v ∈ V , für die s(v, ·) die Nullabbildung, also s(v, ·) ≡ 0, ist. Offenbar
ist N(s) ein Untervektorraum von V :
Def inition 14.31 (Nullraum einer Bilinearform). Zur Bilinearform s : V × V → R
eines R-Vektorraums V heißt
N(s) := {v ∈ V | s(v, ·) ist Nullabbildung }
der Nullraum (auch Ausartungsraum).
Die Bilinearform s : V × V → R ist genau dann degeneriert, falls der Nullraum
N(s) neben der Null weitere Vektoren enthält, also dim N(s) > 0.
Lemma 14.32. Sei s : V × V → R Bilinearform eines R-Vektorraums V . Dann gilt:
dim N(s) + rang s = dim V.
Beweis. Sei B eine Basis von D, so dass eine Diagonalmatrix D mit Einträgen aus
{±1, 0} und
s(Bt, Bt0 ) = tT Dt0 .
existiert (Korollar 14.28). Dann ist:
dim N(s) = {i | dii = 0 }
rang s = {i | dii 6= 0 }
Aus rang s = dim V − dim N(s) folgt die Behauptung.
184
4. Unitäre Endomorphismen und Matrizen
Wir hatte bereits auf Seite 127 orthogonale Abbildungen und Matrizen für den Rn
eingeführt. Diese Begriffe übertragen wir auf den Fall komplexer Vektorräume:
Def inition 14.33 (Orthogonale und unitäre Endomorhismus). Sei V ein euklidischer
(unitärer) Vektorraum mit Skalarprodukt h·, ·i. Ein Endomorhismus f : V → V heißt
orthogonal (unitär), wenn für alle v, w ∈ V gilt:
hv, wi = hf (v), f (w)i .
Man verwendet alternativ auch die englische Bezeichnung Isometrie“. Die Spalten”
und die Zeilenvektoren einer orthogonalen bzw. unitären Matrix bilden bezüglich des
kanonischen Skalarprodukts jeweils eine Orthonormalbasis6 des Rn bzw. Cn . Mit f
ist auch die inverse Abbildung f −1 ein unitärer Endomorphismus. Für die Eigenwerte
λ von f gilt |λ| = 1.
Def inition 14.34 (Orthogonale und unitäre Matrix). Eine reelle, quadratische Matrix A ∈ Mn,n (R) heißt orthogonal, wenn AT A = In . Eine komplexe, quadratische
Matrix A ∈ Mn,n (C) heißt unitär, wenn AT A = In . Die Menge der orthogonalen
n × n-Matrizen bezeichnet man mit On (R), die er unitären Matrizen mit Un (C).
In Satz 11.24 auf Seite 128 haben wir gezeigt, dass On (R) eine Gruppe ist. Analog
weist man nach, dass Un (C) ebenfalls eine Gruppe ist.
Satz 14.35. Sei V ein euklidischer (unitärer) Vektorraum mit Orthonormalbasis B.
Der Endomorphismus f : V → V ist genau dann orthogonal (unitär), wenn die
Darstellungsmatrix MB (f ) orthogonal (unitär) ist.
Beweis. Da B orthonormal ist, haben wir hBt, Bsi = ht, si. Falls f unitär ist, gilt
hMB (f )t, MB (f )si = tT MB (f )T · MB (f )s.
Der Endomorphismus f ist genau dann unitär, wenn MB (f )T · MB (f ) = In ist.
Satz 14.36. Sei V ein unitärer Vektorraum und f : V → V ein Endomorphismus.
Dann gibt es eine Orthonormalbasis von V bestehend aus Eigenvektoren von f .
Beweis. Wir führen den Beweis durch Induktion über die Dimension n := dim V .
Die Verankerung ist offensichtlich, so dass im weiteren n ≥ 2 sei. Das charakteristische
Polynom χf ∈ C[X] hat gemäß Fundamentalsatz der Algebra (Fakt 4.23 auf Seite
52) eine Nullstelle λ1 ∈ C. Da f ein Isomorphismus ist, gilt λ1 6= 0. Es gibt einen
Eigenvektor v1 ∈ V \ {0} zu λ1 mit f (v1 ) = λ1 v1 . Sei
W := {w ∈ V | hv1 , wi = 0 } = span(v1 )⊥ .
Weil f ein Isomorphismus ist, genügt der Nachweis der Inklusion f (W ) ⊆ W , um
f (W ) = W zu zeigen. Für w ∈ W gilt:
λ1 hv1 , f (w)i = hλ1 v1 , f (w)i = hf (v1 ), f (w)i = hv1 , wi = 0.
6Zur Erinnerung: Die Basis b , b , . . . , b heißt Orthonormalbasis, wenn hb , b i = δ
1 2
n
i j
i,j für 1 ≤
i, j ≤ n.
4. Unitäre Endomorphismen und Matrizen
185
Nach Induktionsannahme gibt es eine Orthonormalbasis von W bestehend aus Eizu einer
genvektoren von f |W . Wir ergänzen diese Basis durch den Vektor √ v1
hv1 ,v1 i
Orthonormalbasis von V bestehend aus Eigenvektoren von f .
Korollar 14.37. Sei A ∈ Un (C) eine unitäre Matrix. Dann existiert eine unitäre
Matrix S ∈ Un (C) mit


λ1
0


..
S −1 AS = 

.
0
λn
für λ1 , . . . , λn ∈ C mit |λi | = 1. Insbesondere ist A diagonalisierbar.
Beweis. Fasse A als Darstellungsmatrix von f bezüglich einer Orthogonalbasis von
V auf. Dann ist


λ1
0


..


.
0
λn
die Darstellungsmatrix bezüglich einer Orthonormalbasis aus Eigenvektoren. Die Matrix S ∈ Un (C) transformiert die beiden Orthonormalbasen ineinander.
Wir leiten in Übungsaufgabe 21.3 eine Darstellung wie in Korollar 14.37 her, für den
Fall, dass die Matrix A reelle Einträge hat:
Satz 14.38. Sei A ∈ On (R). Dann existiert eine orthogonale Matrix S ∈ On (R), so
dass S T AS eine Diagonalmatrix mit Kästchen der Form
cos ϕ − sin ϕ
cos ϕ
sin ϕ
±1 ,
,
sin ϕ cos ϕ
− sin ϕ − cos ϕ
ist.
Wir erhalten:
Korollar 14.39. Sei V ein euklidischer Vektorraum und f : V → V ein orthogonaler
Endomorphismus. Dann gibt es zu V eine Orthonormalbasis B derart, dass die Darstellungmatrix MB (f ) von f zur Basis B eine Diagonalkastenmatrix mit Kästchen
der Form
cos ϕ − sin ϕ
cos ϕ
sin ϕ
±1 ,
,
sin ϕ cos ϕ
mit ϕ ∈ [0, 2π) ist.
Bemerkung 14.40. Die Kastenmatrix
cos ϕ
sin ϕ
SPϕ :=
∈ O2 (R)
in Satz 14.38 und Korollar 14.39 stellt eine Spiegelung an einer Geraden dar. Es gibt
eine orthogonale Matrix S ∈ O2 (R) mit
+1 0
T
S · SPϕ ·S =
,
0 −1
186
so dass die Kastenmatrix der Form SPϕ in Satz 14.38 und Korollar 14.39 entfällt. Um
dies zu zeigen, betrachte das charakteristische Polynom der Kastenmatrix SPϕ :
cos ϕ − λ
sin ϕ
χSPϕ (λ) = det
− sin ϕ − cos ϕ − λ
= (cos ϕ − λ)(− cos ϕ − λ) − sin2 ϕ
= λ2 − cos2 ϕ − sin2 ϕ
= λ2 − 1.
Die Matrix SPϕ hat die beiden Eigenwerte ±1:
• Eigenvektor zum Eigenwert +1 ist (− sin ϕ, cos ϕ − 1)T .
• Eigenvektor zum Eigenwert −1 ist (− sin ϕ, cos ϕ + 1)T .
Man kann für S ∈ O2 (R) die Matrix
√ − sin ϕ
2−2 cos ϕ
√cos ϕ−1
2−2 cos ϕ
√ − sin ϕ
2+2 cos ϕ
√cos ϕ+1
2+2 cos ϕ
!
wählen.
5. Normalform selbstadjungierter
Endomorphismen
Wir beginnen mit der Definition von selbstadjungierten Endomorphismen:
Def inition 14.41 (Selbstadjungierter Endomorphismus). Sei V ein euklidischer (unitärer)
Vektorraum endlicher Dimension. Ein Endomorphismus f : V → V heißt selbstadjungiert, wenn für alle v, w ∈ V gilt:
hf (v), wi = hv, f (w)i .
In Satz 14.35 auf Seite 184 haben wir gesehen, dass ein Endomorphismus genau
dann orthogonal (unitär) ist, wenn die Darstellungsmatrix bezüglich einer Orthonormalbasis orthogonal (unitär) ist. Sollte die Matrix hingegen symmetrisch (hermitesch)
sein, so ist dann und nur dann der Endomorphismus selbstadjungiert:
Satz 14.42. Sei V ein euklidischer (unitärer) Vektorraum mit Orthonormalbasis B.
Ein Endomorphismus f : V → V ist genau dann selbstadjungiert, wenn die Darstellungsmatrix MB (f ) symmetrisch (hermitesch) ist.
Beweis. Weil B eine Orthonormalbasis ist, gilt hBt, Bsi = ht, si. Für die Darstellungsmatrix A := MB (f ) zur Basis B haben wir f (Bt) = BAt. Somit:
hf (Bt), Bsi = hBAt, Bsi = hAt, si = tAT s
hBt, f (Bs)i = hBt, BAsi = ht, Asi = tAs.
Damit ist f selbstadjungiert dann und nur dann, wenn A = AT .
Satz 14.43 (Hauptachsentheorem). Sei V ein euklidischer (unitärer) Vektorraum.
Ein Endomorphismus f : V → V ist selbstadjungiert genau dann, wenn es eine
Orthonormalbasis von V bestehend aus Eigenvektoren von f gibt.
5. Normalform selbstadjungierter Endomorphismen
187
Bevor wir Satz 14.43 beweisen, folgern wir:
Korollar 14.44. Eine komplexe, quadratische Matrix A ∈ Mn,n (C) ist genau dann
hermitesch, wenn es eine unitäre Matrix S ∈ Un (C) gibt, für die Diagonalmatrix
D := S −1 AS = S T AS reeell ist.
Im Gegensatz zu Korollar 14.37 auf Seite 185 sind die Diagonalelemente von D
stets reell. Im Falls A ∈ Mn,n (R) ist S ∈ On (R) eine orthogonale Matrix.
Beweis. Wir beweisen Korolllar 14.44. Sei A hermitesch. Wähle ein Orthonormalbasis b1 , . . . , bn von Cn bestehend aus Eigenvektoren der Matrix A, eine solche existiert
nach Satz 14.43. Setze
S := b1 b2 · · · bn ∈ Un (C).
Es gilt:

b1 T b1

S T AS = 
0

hb1 , b1 iC
 
..
=
.
T
bn bn
0
0

0
..
.
hbn , bn iC


 ∈ Mn,n (R).
Die Rückrichtung zeigt man analog.
Wir kommen zum Beweis von Satz 14.43:
Beweis. Der Endomorphismus f : V → V sei selbstadjungiert. Durch Induktion über
dim V konstruieren wir eine Orthonormalbasis von V bestehend aus Eigenvektoren
von f .
Sei λ1 eine Nullstelle des Charakteristischen Polynoms χf ∈ C[X] und v1 ∈ V
Eigenvektor zum Eigenwert λ1 , d.h. f (v1 )) = λ1 v1 und v1 6= 0. Es gilt:
λ1 hv1 , v1 i = hλ1 v1 , v1 i = hf (v1 ), v1 i .
Weil f selbstadjungiert ist, erhalten wir
λ1 hv1 , v1 i = hv1 , f (v1 )i = hv1 , λ1 v1 i = λ1 hv1 , v1 i ,
so dass λ1 reell ist. Setze
W := {w ∈ V | hv1 , wi = 0 } ⊆ V.
W ist offenbar ein Untervektorraum von V . Es gilt f (W ) ⊆ W , denn für w ∈ W ist:
hv1 , f (w)i = hf (v1 ), wi = hλ1 v1 , wi = λ1 hv1 , wi
Der Endomorphismus f : W → W ist gemäß Voraussetzung selbstadjungiert. Nach
Induktionsannahme gibt es eine Orthonormalbasis von W mit Eigenvektoren von
v1 liefert dies die gewünschte Orthonormalbasis von V .
f |W . Zusammen mit √ 1
hv1 ,v1 i
Für die Rückrichtung sei v1 , . . . , vn eine Orthonormalbasis von V , wobei vi Eigenvektor von f zum Eigenwert λi ist. Wegen
X
X
X
X
X
f
ti vi ,
si vi =
λi ti si =
ti vi , f
si vi
i
ist f selbstadjungiert.
i
i
i
i
188
Satz 14.45. Sei V ein euklidischer (unitärer) Vektorraum und f : V → V ein selbstadjungierter und invertierbarer Endomorphismus. Dann ist ist f −1 ebenfalls selbstadjungiert.
Beweis. Es gilt:
f −1 (v), f (w) = f f −1 (v), w = hv, wi .
Also f −1 (v), w = v, f −1 (w) , so dass f −1 selbstadjungiert ist.
Bezogen auf die Darstellungsmatrix gilt:
Korollar 14.46. Ist A ∈ GLn (C) hermitesch, so auch A−1 .
Satz 14.47 (Polarzerlegung). Sei A ∈ GLn (C). Dann gibt es eine eindeutige Zerlegung A = BC mit unitärer Matrix B ∈ Un (C) und positiv definiter, hermitescher
Matrix C ∈ Mn,n (C).
Beweis. Die Matrix AT A ist hermitesch, denn (AT A)T = AT A = AT A, ferner ist
AAT positiv definit:
xT (AT A)x = (Ax)T · ( Ax) ≥ 0.
Nach Korollar 14.44 gibt es ein S ∈ Un (C) mit
D := S T AT A S ∈ Mn,n (R).
Seien s1 , . . . , sn die Spaltenvektoren von S. S := {s1 , . . . , sn } ist eine Orthonormalbasis mit Eigenvektoren si von AAT zum Eigenwert λi > 0.
√
Definiere einen Endomorphismus f : Cn → Cn durch f (si ) := λi si . Es gilt
f (f (St)) = S(Dt), d.h.
MS (f ) = MS (f 2 ) = D.
Sei I die Basis bestehend aus den kanonischen Einheitsvektoren, der Basiswechsel
von S ist gegeben durch die Transformationsmatrix S −1 .
MI (f 2 ) = S · MS (f 2 ) · S −1 = SDS −1 = AT A.
Setze C := MI (f ) und B := AC −1 . Somit gilt A = BC.
denn
√ Dann ist C hermitesch,
√
die Darstellungsmatrix zur Orthogonalbasis S ist D mit Eigenwerten λi . Nach
Übungsaufgabe 22.1 ist C positiv definit. Zu zeigen bleibt, dass B unitär ist:
B −1 = CA−1 = C −1 C 2 A−1 = C −1 AT AA−1
T
= C −1 AT = AT (C −1 )T = ( A · C −1 )T
= (AC −1 )T = B T
Betrachten wir zum Abschluß die Eindeutigkeit der Zerlegung. Angenommen, A =
BC = B 0 C 0 mit unitären Matrizen B, B und hermiteschen Matrizen C, C 0 . Dann gilt:
C 2 = AT A = ( B 0 C 0 )T B 0 C 0 = C 0 T · B 0 T · B 0 C 0 = C 0 T · C 0 = (C 0 )2 ,
Offenbar stimmen die Eigenwerte und die Eigenvektoren von C, C 0 überein (benutze,
dass C, C 0 positiv definit ist). Dann gilt für die hermiteschen Matrizen C = C 0 .
5. Normalform selbstadjungierter Endomorphismen
189
Für reelle Matrizen lautet Satz 14.47:
Korollar 14.48. Sei A ∈ GLn (R). Dann gibt es eine eindeutige Zerlegung A = BC
mit orthogonaler Matrix B ∈ On (R) und positiv definiter, symmetrischer Matrix C.
Korollar 14.49. Sei A ∈ GLn (C). Dann gibt es eine eindeutige Zerlegung A = BC
mit unitärer Matrix B ∈ Un (C) und positiv definiter, hermitescher Matrix C.
Beweis. Wende Satz 14.47 an auf AT . Sei AT = BC die Polarzelegung mit unitärer
Matrix B ∈ Un (C) und positiv definiter, hermitescher Matrix C ∈ Mn,n (C). Aus den
Eigenschaften von B und C folgt:
A = C T · B T = CB −1 .
Wie die Ähnlichkeitsrelation von Seite 105 ist die im folgenden erklärte Kongruenzrelation eine Äquivalenzrelation auf der Menge der reellen (bzw. komplexen) n × nMatrizen:
Def inition 14.50 (Kongruente Matrizen). Zwei quadratische Matrizen A, B ∈ Mn,n (R)
oder Mn,n (C), heißen kongruent, A ≈ B, wenn es eine invertierbare Matrix T ∈
GLn (R) bzw. GLn (C) gibt mit
A = T T BT.
Der Nachweis, dass diese Relation eine Aquivalenzrelation ist, führt man wie den
entsprechende Beweis für die Ähnlichkeitsrelation in Satz 10.2 auf Seite 105.
Def inition 14.51 (Trägheitsindex). Der Trägheitsindex einer hermiteschen Matrix
A ∈ Mn,n (C) ist die mit Vielfachheit gezählte Anzahl t(A) der positiven Eigenwerte
von A.
Satz 14.52 (Trägheitssatz von Sylvester). Seien A, B ∈ Mn,n (R) oder Mn,n (C).
Genau dann sind A, B kongruent, wenn ihre Ränge und Trägheitsindizes übereinstimmmen:
A≈B
⇐⇒
rang A = rang B und t(A) = t(B).
Wir beweisen den Trägheitssatz von Sylvester für den Fall komplexer Matrizen.
Wir beginnen zunächst mit einem Lemma:
Lemma 14.53. Sei A ∈ Mn,n (C). Dann gilt für den Trägheitsindex von A:
V ist ein Untervektorraum von Cn , so
t(A) = max dim V dass xT Ax positiv definit auf V ist.
Beweis. Wir zeigen zunächst die ≥“-Ungleichung. Seien v1 , . . . , vt(A) linear un”
abhängige Eigenvektoren von A zu positiven Eigenwerten. Dann ist xT Ax positiv
definit auf span(v1 , . . . , vt(A) ).
Für den Beweis der ≤“-Relation führen wir die Annahme dim V > t(A) zum Wi”
derspruch. Sei v1 , . . . , vn eine Basis von Cn aus Eigenvektoren von A zu Eigenwerten
190
λ1 , . . . , λn ∈ R (nach Satz 14.43 auf Seite 186). O.B.d.A. gelte
λ1 , . . . , λt(A) > 0
λt(A)+1 , . . . , λr < 0
λr+1 , . . . , λn = 0.
Wegen dim V > t(A) gibt es ein w ∈ V ∩ span(v1 , . . . , vt(A) )⊥ , w 6= 0, mit der
P
Darstellung w = ni=t(A)+1 ti vi .
wT Aw =
n
X
ti ti λi < 0.
i=t(A)+1
Also ist
xT Ax
nicht positiv definit auf V — Widerspruch.
Kongruente Matrizen haben den gleichen Trägheitsindex, denn die rechte Seite
in Lemma 14.53 ändert sich nicht: Genau dann ist xT Ax positiv definit auf V , wenn
xT T T AT x positiv definit auf T (V ) ist:
Korollar 14.54. Sei A ∈ Mn,n (C) und T ∈ GLn (C). Dann gilt:
t(A) = t(T T AT ).
Aus Korollar 14.54 folgt bereits eine Implikation des Trägheitssatzes von Sylvester: Sind die Matrizen A, B kongruent, so stimmen ihre Ränge und Trägheitsindizes
überein. Sei umgekehrt
t(A)






rang A 




+1
..

0
.
+1
−1
..
.
−1
0
0
..
.
0





 ≈ A.




Man vertausche und normiere die Eigenwerte der Diagonalmatrix D nach Korollar
14.44 auf Seite 187. Stimmen Ränge und Trägheitsindizes überein, also rang A =
rang B und t(A) = t(B), gilt A ≈ B. Damit ist der Trägheitssatz von Sylvester
bewiesen.
Zum Abschluß betrachten wir die Zerlegung eines reellen Vektorraums V bezüglich
einer symmetrischen Bilinearform s : V × V → R. Sei
• V 0 := N(s) = {v ∈ V | s(v, ·) ist Nullabbildung } der Nullraum.
• V + ⊆ V Unterraum max. Dimension, so dass s positiv definit auf V + ist.
• V − ⊆ V Unterraum max. Dimension, so dass s negativ definit auf V − ist.
Satz 14.55. Es gilt V = V 0 ⊕ V + ⊕ V − .
Beweis. O.B.d.A. sei V = Rn . Sei s(v, w) = v T Aw und A symmetrisch. Dann gilt
A ≈ D ∈ {±1, 0}n×n . Der Satz gilt offenbar für D.
Kapitel 15
Endliche Körper
In diesem Kapitel charakterisieren wir endliche Körper. Wir zeigen, dass jeder endliche Körper pn Elemente hat, wobei p eine Primzahl und n eine natürliche Zahl ist.
Umgekehrt geben wir ein Verfahren an, um zu jeder gegebenen Primzahl p und jedem
n ∈ N einen Körper mit pn Elementen konstruiert. Ferner betrachten wir in Abschnitt
4 die Struktur der multiplikativen Gruppe endlicher Körper.
Zur Erinnerung: Wir kennen bereits eine spezielle Klasse endlicher Körper: In
Satz 2.28 auf Seite 27 haben wir gezeigt, dass der Ring Zn der Restklassen modulo n
genau dann ein Köper ist, wenn n prim ist. Damit haben wir bereits endliche Körper
mit p Elementen kennengelernt.
1. Charakteristik
Sei K ein Körper. Wir führen folgenden Notation ein:
0 · 1 = 0,
n · 1 = 1| + 1 +
{z· · · + 1},
(−n) · 1 = −(n · 1),
n∈N
n-mal
Dabei ist 1 das multiplikative neutrale Element und + die Addition in K. Die Notation
n · 1 sollte dabei nicht mit der Multiplikation n · 1 = n im Körper verwechselt werden.
Schreiben wir folgenden n · 1, so ist stets die hier eingeführte Notation gemeint.
Man verifiziert leicht mittels der Körperaxiome, dass die folgenden Rechenregeln
für alle m, n ∈ Z gelten:
(mn) · 1 = (m · 1)(n · 1),
(m + n) · 1 = (m · 1) + (n · 1)
(40)
Wir können die Notation n · 1 formal als Abbildung ϕK : Z → K mit ϕK (n) = n · 1
auffassen. Diese Abbildung ist gemäß der Eigenschaften (40) ein Ringhomomorphismus.
191
192
15. Endliche Körper
Def inition 15.1 (Charakteristik). Sei K ein Körper. Die Charakteristik von K ist
definiert durch:
(
0
n · 1 6= 0 für alle n ∈ N
char K =
min {n ∈ N | n · 1 = 0 } sonst.
Es gilt beispielsweise char R = 0 und char Zp = p. Für Körper mit Charakteristik
0 sind alle Werte n · 1 verschieden, denn aus m · 1 = n · 1 für m ≤ n folgt
0 = (n · 1) − (m · 1) = (n − m) · 1,
doch dies ist nach Definition der Charakteristik nur für m = n möglich. Insbesondere
zeigt dies, dass der Homomorphismus ϕK für Körper K mit char K = 0 injektiv ist.
Ferner erhalten wir, dass die Charakteristik eines endlichen Körpers stets verschieden
von 0 ist. Andererseits gibt es unendliche Körper, deren Charakteristik ungleich 0 ist
(beispielsweise hat Zp (x), der kleinste Körper, der alle Polynome in der Variablen x
mit Koeffizienten aus Zp enthält, unendlich viele Elemente, aber die Charakteristik
p).
Die Beispiele R und Zp sind Körper mit Charakteristik 0 bzw. primer Charakteristik. Der folgende Satz zeigt, dass die Charakteristik nur diese Werte annimmt:
Satz 15.2. Sei K ein Körper. Dann ist char K entweder 0 oder prim.
Beweis. Sei char K = n = ab für a, b, n ∈ N mit 1 < a, b < n. Dann gilt
0 = n · 1 = (ab) · 1 = (a · 1)(b · 1).
Da der Körper K nullteilerfrei ist, folgt a · 1 = 0 oder b · 1 = 0 und somit ein
Widerspruch zur Minimalität von n.
n
Wir betrachten die Frobenius-Abbildung σp,n : K → K mit x 7→ xp in Körpern mit
Charakteristik p 6= 0. Der folgende Satz zeigt, dass die Abbildung in diesen Körpern
homomorph ist.
Satz 15.3. Sei K ein Körper mit char K = p 6= 0. Dann ist die Frobenius-Abbildung
σp,n für alle n ∈ N ein Ringhomomorphismus, d.h. für alle x, y ∈ K gilt:
n
σp,n (x + y) = (x + y)p
n
σp,n (xy)
=
(xy)p
n
n
= xp + y p
n
n
=
xp y p
= σp,n (x) + σp,n (y)
=
σp,n (x)σp,n (y)
Beweis. Die multiplikative Formel ist offensichtlich. Wir betrachten die additive Eigenschaft zunächst für den Fall n = 1. Nach der binomischen Formel gilt:
p−1 X
p
· 1 xk y p−k + y p
(x + y)p = xp +
k
k=1
Da p! = kp k!(p − k)! über Z und keiner der Faktoren
k! und (p − k)! für 1 ≤ k, p − k ≤
p
p−
1 von der Primzahl p geteilt wird, muß k durch p teilbar sein. Dann ist aber
p
k · 1 = 0 in K nach Definition der Charakteristik für alle k = 1, . . . , p − 1 und daraus
folgt (x + y)p = xp + y p . Für den Fall n > 1 wende man n-mal z 7→ z p an.
2. Primkörper
193
2. Primkörper
In diesem Abschnitt geben wir eine äquivalente Betrachtung der Charakteristik an.
Dazu führen wir die Definition des Primkörpers eines Köpers K ein. Der Primkörper
ist der kleinste Unterkörper von K:
Def inition 15.4 (Primkörper). Sei K ein Körper. Dann heißt
\
L
P (K) =
L ist Unterkörper von K
der Primkörper von K.
Dabei haben wir die — leicht überprüfbare — Eigenschaft verwendet, dass der
Durchschnitt von Unterkörpern wieder ein Unterkörper ist.
Satz 15.5. Sei K ein Körper. Dann gilt:
a) char K = 0 genau dann, wenn P (K) ∼
= Q.
b) char K = p 6= 0 genau dann, wenn P (K) ∼
= Zp .
Beweis. Wir zeigen die vier Implikationen:
(1) char K = 0 ⇒ P (K) ∼
=Q
Der Körper P (K) enthält mit 1 auch alle Summen n · 1 sowie die multiplikativen Inversen (n · 1)−1 für n ∈ Z \ {0}. Folglich ist
L := (m · 1)(n · 1)−1 m, n ∈ Z, n 6= 0 ⊆ P (K)
Wir wissen bereits, dass der Homomorphismus ϕK :Z →
= n·1
K mit ϕK (n) injektiv ist. Dann ist aber offensichtlich L ∼
= Q = ab a, b ∈ Z, b 6= 0 und
damit L Körper. Folglich ist auch P (K) ⊆ L, da der Primkörper der kleinste
Unterkörper von K ist, und somit P (K) = L ∼
= Q.
∼
(2) char K = p 6= 0 ⇒ P (K) = Zp
Offensichtlich ist
L := {n · 1 | n ∈ Z } = {n · 1 | n ∈ {0, 1, . . . , p − 1} }
∼ Zp . Wie im ersten
und wegen der Homomorphieeigenschaft von ϕK gilt L =
∼
Fall folgt P (K) = L = Zp .
(3) P (K) ∼
= Q ⇒ char K = 0
Angenommen, es wäre char K = p 6= 0. Dann wäre P (K) ∼
= Zp nach 2
und somit nicht isomorph zu Q.
(4) P (K) ∼
= Zp ⇒ char K = p 6= 0
Folgt wie im vorigen Fall: Angenommen, es wäre char K = 0. Dann wäre
P (K) ∼
= Q nach 1 und somit nicht isomorph zu Zp .
Als einfache Folgerung erhalten wir, dass char L = char K für jeden Unterkörper L
von K, da die Primkörper P (L), P (K) nach Definition eines Primkörpers identisch
sind.
Wir kommen damit zum ersten Teilresultat über endliche Körper:
194
Satz 15.6. Sei K ein endlicher Körper. Dann gilt |K| = (char K)n = pn für eine
Primzahl p und ein n ∈ N.
Beweis. Wir betrachten K als Vektorraum über seinem Primkörper P (K): Die Addition zwischen Vektoren v, w ∈ K ist durch die Addition im Körper K definiert. Ebenso
ist die Skalarmultiplikation λv für λ ∈ P (K) und v ∈ K durch die Multiplikation in
K erklärt. Man überprüft leicht, dass die Vektorraumaxiome erfüllt sind, da (K, +)
eine abelsche Gruppe ist und (λ + µ)v = λv + µv, λ(v + w) = λv + λw, (λµ)v = λ(µv)
sowie 1 · v = v aus den Körperaxiomen folgen.
Da der Vektorraum K endlich ist, gibt es eine (endliche) Basis b1 , . . . , bn ∈ K für
ein n ∈ N. Jedes v ∈ K hat damit eine eindeutige Darstellung
v=
n
X
λ i bi ,
λ1 , . . . , λn ∈ P (K)
i=1
Folglich hat K genau so viele Elemente, wie es Tupel (λ1 , . . . , λn ) mit λ1 , . . . , λn ∈
P (K) gibt. Da K endlich ist, ist P (K) ∼
= Zp für eine Primzahl p = char K, und daraus
3. Konstruktion endlicher Körper
In diesem Abschnitt zeigen wir, wie man zu gegebener Primzahl p und gegebenem
n ∈ N einen endlichen Körper mit pn Elementen konstruiert.
Zur Erinnerung: Für einen Körper K ist K[X] der Ring der Polynome in X mit
Koeffizienten aus K, die Elemente K werden als konstante Polynome in K[X] eingebettet. Analog zu Z haben wir bereits in Kapitel 4 die Restklassenkonstruktion
von Polynomen im Ring K[X] kennengelernt. Zur Wiederholung betrachten wir ein
Beispiel:
Beispiel 15.7. Wir betrachten Z2 = {0, 1} und das Polynom p(X) = X 2 + X + 1 ∈
Z2 [X]. Wegen X 2 ≡ −X − 1 mod p(X) sind die Restklassen die Polynome mit Grad
maximal 1. So ist beispielsweise
X 3 ≡ X · X 2 ≡ X(−X − 1) ≡ −X 2 − X ≡ X + 1 − X ≡ 1 mod p(X)
Für diesen Restklassenring schreiben wir:
Z2 [X]/(p(X)) = {0, 1, X, X + 1}.
Es gilt X(X + 1) ≡ X 2 + X ≡ −1 mod p(X) und da −1 = 1 in Z2 , sind X und X + 1
zueinander invers. Tatsächlich ist damit Z2 [X]/(p(X)) ein Körper mit 4 Elementen.
Wir wissen, dass Zn = Z/nZ die Restklassen modulo n sind, die wir durch die
Zahlen 0, 1, . . . , n−1 repräsentieren können. Im Fall K[X]/(p(X)) sind die Restklassen
die Polynome mit Grad kleiner als deg p(X). Ferner ist K[X] wie Z ein Integritätsring
und es exisitiert Division mit Rest. Wir können daher die Restklassenbildung in K[X]
durch Vergleich zu Zn motivieren. Wir haben gezeigt, dass Zn genau dann ein Körper
ist, wenn n ∈ N prim ist. Zur Erinnerung:
195
Eine Zahl n ∈ N \ {1} ist genau dann prim, wenn n|ab nur für n|a
oder n|b möglich ist.
Dabei wird die Zahl 1 als Spezialfall (sogenannte Einheit) per Definition ausgeschlossen. Die aus der Schulmathematik bekannte Eigenschaft, dass Primzahlen die Zahlen
sind, die nur 1 und sich selbst als Teiler besitzen, heißt in der Algebra Irreduzibilität:
Eine Zahl n ∈ N \ {1} heißt irreduzibel, wenn n = ab nur für a = 1
oder b = 1 möglich ist.
Da in N die Primzahlen genau die irreduziblen Zahlen sind, sind in diesem Fall beide
Definitionen äquivalent.
Wir übertragen den Begriff der Irreduzibilität auf den Ring K[X]. Dabei spielen
die Elemente K in K[X] die Rolle der Eins in N:
Def inition 15.8 (Irreduzibles Polynom). Sei K ein Körper. Ein nicht-konstantes
Polynom p(X) ∈ K[X] heißt irreduzibel über K, wenn p(X) = a(X)b(X) nur für
a(X) ∈ K oder b(X) ∈ K möglich ist.
Beispielsweise sind Polynome vom Grad 2 oder 3 genau dann irreduzibel über
K, wenn sie keine Nullstelle in K besitzen (Übung). Für Polynome vom Grad 4 oder
höher gilt dies im allgemeinen nicht, z.B. ist das Polynom X 4 + 2X + 1 = (X 2 + 1)2
über den reellen Zahlen R nicht irreduzibel, obwohl es keine reelle Nullstelle besitzt.
Der Begriff eines Primpolynoms läßt sich auf offensichtliche Weise auf dem Ring
K[X] definieren, und wie in N folgt, dass die Primpolynome in K[X] genau die irreduziblen Polynome sind. Analog zu Zp gilt:
Fakt 15.9. Sei K ein Körper. Dann ist K[X]/(p(X)) genau dann ein Körper, wenn
p(X) irreduzibel über K ist.
Eine wichtige Eigenschaft dieses Körpers K[X]/(p(X)) ist, dass das Polynom p(X)
darin die Nullstelle λ := X mod p(X) (Restklasse von X) besitzt, denn
p(λ) ≡ p(X mod p(X)) ≡ p(X) ≡ 0 mod p(X)
Beachte, dass wir bei Nullstellenbetrachtungen Werte in das Polynom einsetzen und
das Polynom auswerten, während wir beispielsweise bei der Restklassenkonstruktion
das Polynom als formales Objekt ansehen.
Beispiel 15.10. Wir betrachten R[X]/(X 2 + 1) = {a + bX | a, b ∈ R }. Die Nullstelle
X mod X 2 + 1 nennen wir in diesem Fall i, so dass
i2 ≡ X 2 ≡ −1 mod X 2 + 1
Der Ring R[X]/(X 2 + 1) entspricht nämlich den komplexen Zahlen C, und wir haben
die imaginäre Einheit als Nullstelle des irreduziblen Polynoms X 2 + 1 eingeführt. Die
Polynommultiplikation
(a + bX)(c + dX) ≡ ac + (ad + bc)X + bdX 2
≡ (ac − bd) + (ad + bc)X mod X 2 + 1
entspricht (ebenso wie die Polynomaddition) der in Abschnitt 1 auf Seite 16 per
Definition festgelegten Multiplikation (bzw. Addition) in den komplexen Zahlen (mit
i statt X).
196
Im Körper K[X]/(p(X)) hat das Polynom p(X) eine Nullstelle λ (mit Vielfachheit
n). Wenn wir diese Nullstelle abspalten p(X) = (X − λ)n q(X), erhalten wir ein
Polynom q(X) in diesem Körper, das wir in irreduzible Faktoren q1 (X), . . . , qm (X)
zerlegen können. Für den Faktor q1 (X) bilden wir den Restklassenkörper, in dem
q1 (X) und damit auch p(X) eine weitere Nulltelle hat. Wenn wir dieses Verfahren
iterieren (und zwar maximal deg p(X)-mal), erhalten wir einen Körper, in dem p(X)
vollständig in Linearfaktoren X − λi zerfällt. Dieser Körper ist bis auf Isomorphie
eindeutig bestimmt und heißt Zerfällungskörper :
Def inition 15.11 (Zerfällungskörper). Sei K ein Körper und p(X) ∈ K[X]. Der
Zerfällungskörper von p(X) über K ist der kleinste Körper Z ⊇ K, in dem p(X)
vollständig in Linearfaktoren zerfällt:
p(X) = c · (X − λ1 ) · · · (X − λn ) ∈ Z[X]
mit c ∈ K, λ1 , . . . , λn ∈ Z, n = deg p(X).
Wir haben uns oben überlegt, dass jedes irreduzible Polynom einen Zerfällungskörper besitzt. Tatsächlich hätten wir bei der Konstruktion bereits mit einem nicht
irreduziblen Polynom starten können, indem wir dieses Polynom zunächst in irreduzible Faktoren zerlegt hätten. Wir erhalten:
Satz 15.12. Sei K ein Körper. Für jedes Polynom p(X) ∈ K[X] existiert der Zerfällungskörper.
√
√ Beispielsweise ist Q( 2) = a + b 2 a, b ∈ Q der Zerfällungskörper des Poly√
√
noms X 2 − 2 = (X + 2)(X − 2).
Wir kommen zur Konstruktion eines endlichen Körpers mit pn Elementen für
gegebene p, n. Ausgehend von einem Körper mit Charakteristik p (beispielsweise Zp )
n
konstruieren wir einen geeigneten Unterkörper des Zerfällungskörpers von X p − X:
Satz 15.13. Sei K ein Körper mit char K = p 6= 0, n ∈ N und Z der Zerfällungskörpers
n
des Polynoms q(X) = X p − X ∈ K[X] über K. Dann ist
n
L = {a ∈ Z | q(a) = 0 } = a ∈ Z ap = a
ein Unterkörper von Z mit pn Elementen.
Beweis. Wir zeigen, dass L ein Unterkörper von Z ist. Wegen char Z = char K = p
n
ist die Frobenius-Abbildung σp,n mit σp,n (a) = ap ein Homomorphismus auf Z. Wir
überlegen uns zunächst, dass mit b ∈ L auch −b ∈ L ist. Für p = 2 ist dies klar, da
1 + 1 = 0 = 1 − 1, d.h. −1 = 1 und −b = (−1)b = b. Sei p > 2 und damit pn ungerade.
n
n
n
Dann ist (−b)p = (−1)p bp = (−1)b = −b und damit −b ∈ L. Wir beweisen damit
das Unterkörperkriterium, dass mit a, b auch a − b und ab−1 (für b 6= 0) in L liegen:
n
n
n
(a − b)p = ap + (−b)p = a − b
n
n
n −1
(ab−1 )p = ap bp
= ab−1
Offensichtlich ist 1 ∈ L. Daraus folgt nach Satz 2.6 auf Seite 19, dass L ein Unterkörper
von Z ist.
197
Bleibt zu zeigen, dass L genau pn Elemente hat. Da das Polynom q(X) vom Grad
im Integritätsbereich Z[X] maximal pn Nullstellen haben kann, folgt die obere
Schranke |L| ≤ pn . Es genügt daher zu zeigen, dass die Nullstellen von q(X) alle
verschieden sind. Dazu verwenden wir folgendes Fakt, dass wie hier nicht beweisen
werden:
pn
Fakt 15.14. Seien g(X), h(X) ∈ K[X] teilerfremd in K[X], d.h. f (X)|g(X) und
f (X)|h(X) ist nur für f (X) ∈ K möglich,1, dann sind g(X) und h(X) auch in Z[X]
teilerfremd.
Um dieses Fakt anzuwenden, führen wirPdie symbolische (oder P
auch algebraische)
n
i
0
Ableitung eines Polynoms ein: Zu h(X) = i=0 hi X sei h (X) = ni=1 (i · 1)hi X i−1 .
Es gilt die aus der Analysis bekannte Rechenregel (gh)0 (X) = g 0 (X)h(X)+g(X)h0 (X).
Angenommen, q(X) hat eine mehrfache Nullstelle λ mit Vielfachheit m ≥ 2 in Z:
q(X) = (X − λ)m r(X)
Dann ist in Z[X] einerseits
q 0 (X) = (m · 1)(X − λ)m−1 r(X) + (X − λ)m r0 (X),
und in K[X] wegen char K = p andererseits
n −1
q 0 (X) = (pn · 1)X p
− 1 = −1.
Insbesondere sind q(X) und q 0 (X) in K[X] teilerfremd (da nur konstante Polynome
das Polynom q 0 (X) = −1 teilen), also auch in Z[X]. In Z[X] haben beide Polynome
wegen m ≥ 2 allerdings den gemeinsamen Teiler X − λ, und wir erhalten einen
Widerspruch. Folglich hat q(X) keine mehrfachen Nullstellen und es gilt |L| ≥ pn . n
n
Der Frobenius-Homomorphismus σp,n ist auf L bijektiv: Aus xp = y p erhalten wir
n
1 = (xy −1 )p = xy −1 und damit x = y. Folglich ist σp,n auf L injektiv und — da
injektive Abbildung zwischen endlichen Mengen gleicher Mächtigkeit stets bijektiv
sind — sogar ein Automorphismus auf L.
Ohne Beweis geben wir einige weitere Eigenschaften endlicher Körper an [FS78,
W96]:
Fakt 15.15. Sei K ein endlicher Körper mit pn Elementen, p prim, n ∈ N. Dann
gilt
a) Jeder Körper L mit pn Elementen ist isomorph zu K.
b) Die Unterkörper von K sind (bis auf Isomorphie) genau die Körper mit pm
Elementen für m|n.
c) Es gilt P (K) ∼
= Zp und char K = p.
1Der Teilbarkeitsbegriff überträgt sich unmittelbar von Z auf Polynomringe: Ein Polynom a(X)
teilt ein Polynom b(X), wenn bei Division mit Rest b(X) = q(X)a(X) + r(X) der Rest r(X) das
Nullpolynom ist.
198
4. Struktur der multiplikativen Gruppe
endlicher Körper
In diesem Abschnitt betrachten wir die Struktur der multiplikativen Gruppe K∗ :=
K\{0} endlicher Körper K. Wir zeigen, dass diese Gruppe zyklisch ist, d.h. es gibt ein
Gruppenelement, so dass die Potenzen dieses Elements bereits die gesamte Gruppe
durchlaufen. Wir beginnen mit einem Beispiel:
Beispiel 15.16. Wir betrachten den Körper
F4 = Z2 [X]/(X 2 + X + 1) = {0, 1, X, X + 1}.
Diesen Körper haben wir bereits in Beispiel 15.7 in Abschnitt 3 kennengelernt. Die
Elemente X und X + 1 sind zueinander invers.
Die multiplikative Gruppe F∗4 = {1, X, X + 1} besteht aus 3 Elementen. Die
Ordnung eines Elements a einer endlichen Gruppe (G, ·) ist definiert durch:
ordG a = min {n ∈ N | an = 1 } ,
wobei an das n-fache Produkt von a in G ist. In unserem Fall:
ordF∗4 1
= 1,
= 3,
da
X 2 ≡ −X − 1 ≡ X + 1 mod X 2 + X + 1
X 3 ≡ X · X 2 ≡ X(X + 1) ≡ 1 mod X 2 + X + 1
ordF∗4 X + 1 = 3,
da
(X + 1)2 ≡ X 2 + 2X + 1 ≡ X mod X 2 + X + 1
(X + 1)3 ≡ (X + 1)(X + 1)2 ≡ 1 mod X 2 + X + 1
ordF∗4 X
Es gilt daher F∗4 = {X 0 , X 1 , X 2 } = {(X + 1)0 , (X + 1)1 , (X + 1)2 }.
Allgemeiner nennt man eine Gruppe, die von einem Element erzeugt wird, zyklisch.
Wir definieren zunächst die Ordnung eines Elementes formal:
Def inition 15.17 (Ordnung eines Elementes). Für eine Gruppe (G, ·) heißt
(
0
an 6= 1 für alle n ∈ N
ordG a =
min {n ∈ N | an = 1 } sonst
die Ordnung des Elementes a in G.
Geht die Gruppe G aus dem Kontext hervor, schreiben wir abkürzend ord a statt
ordG a.
Def inition 15.18 (Zyklische Gruppe). Eine Gruppe (G, ·) heißt zyklisch, wenn es
ein primitives (oder auch erzeugendes) Element g ∈ G mit
hgi := {g 0 , g 1 , g 2 , g 3 , . . . } = G
gibt. Das Element g nennt man auch Generator.
Wir überlegen uns, dass für ein Element a einer zyklischen Gruppe die Elemente
a0 , a1 , . . . , an−1 mit n = ord a verschieden sind. Angenomen, es wäre ai = aj für
0 ≤ i < j < n. Dann wäre aj−i = 1 für 1 ≤ j − i < n im Widerspruch zur Minimalität
4. Struktur der multiplikativen Gruppe endlicher Körper
199
von n. Insbesondere bedeutet dies, dass die Ordnung eines Elementes einer endlichen
Gruppe höchstens die Anzahl der Elemente der Gruppe sein kann.
Beispiel 15.19. Wir betrachten die multiplikative Gruppe Z∗5 := {1, 2, 3, 4} des endlichen Körpers Z5 . Diese ist eine zyklische Gruppe, die von 2 erzeugt wird:
20 = 1 mod 5
21 = 2 mod 5
22 = 4 mod 5
23 = 2 · 22 = 3 mod 5.
Es gilt h2i = Z∗5 . Auch 3 ist ein Generator der Gruppe Z∗5 , 4 ist hingegen kein primitives Element der Gruppe.
Unser Ziel ist es, zu zeigen, dass die multiplikative Gruppe K∗ endlicher Körper
K stets zyklisch ist. Dazu benötigen wir folgende Fakten über die Ordnung von Elementen:
Fakt 15.20. Sei G eine multiplikative Gruppe. Dann gilt für a, b ∈ G:
• Wenn m| ord a, dann ist ord am =
ord a
m .
• Wenn ord a, ord b teilerfremd sind, dann ist ord(ab) = ord a · ord b.
Den ersten Punkt des Faktes können wir mit unserem Wissen bereits beweisen:
a
m n
ord a = 1 und somit ord am ≤
Zur Abkürzung sei n = ord
m . Offensichtlich ist (a ) = a
n. Angenommen, es wäre t = ord am < n. Dann wäre (am )t = amt = 1 und folglich
ord a ≤ mt < ord a, Widerspruch. Auf den Beweis der zweiten Eigenschaft verzichten
wir hier.
Das folgendes Lemma bereitet die zentrale Aussage dieses Abschnitts vor:
Lemma 15.21. Sei G eine endliche Gruppe und m = max {ord a | a ∈ G }. Dann
gilt bm = 1 für alle b ∈ G.
Beweis. Sei a ein Element mit ord a = m. Ferner sei b ein beliebiges Element mit
ord b = n. Wir betrachten die (eindeutige) Primfaktorzerlegung von m und n:
m=
k
Y
i
pm
i ,
n=
i=1
k
Y
pni i ,
mi , n i ≥ 0
i=1
wobei p1 , . . . , pk prim sind. Setze
r=
k
Y
i
pm
i ,
i=1
mi <ni
s=
k
Y
pni i
i=1
mi ≥ni
so dass wegen r| ord a und s| ord b nach Fakt 15.20 die Ordnungen
k
Y
m
i
ord a =
=
pm
i ,
r
r
i=1
mi ≥ni
k
Y
n
ord b = =
pni i
s
s
i=1
mi <ni
200
teilerfremd sind. Es folgt:
r s
r
s
ord(a b ) = ord a · ord b =
k
Y
max{mi ,ni }
pi
i=1
Da m maximal ist, ergibt sich ni ≤ mi für alle i = 1, . . . , k, denn sonst wäre ar bs
ein Element mit Ordnung größer als m. Wir erhalten n|m und somit bm = (bn )m/n =
1.
Satz 15.22. Sei K ein endlicher Körper. Dann ist die multiplikative Gruppe (K∗ , ·)
zyklisch.
Beweis. Sei m = max {ord a | a ∈ K∗ }. Nach Lemma 15.21 ist damit bm = 1 für
alle b ∈ K∗ , d.h. das Polynom X m − 1 hat mindestens |K∗ | Nullstelllen und daher
ist m ≥ |K∗ |. Andererseits ist m ≤ |K∗ |, da alle Elemente a0 , a1 , . . . , am−1 für ein
a mit ord a = m verschieden sind. Folglich gibt es ein g mit Ordnung ord g = m =
|K∗ |, so dass die (verschiedenen) Elemente g 0 , g 1 , . . . , g m−1 die gesamte Gruppe K∗
durchlaufen.
Kapitel 16
Gittertheorie
Wir haben Gitter bereits in Kapitel 7 auf Seite 76 definiert. In diesem Kapitel
beschäftigen wir uns intensiver mit Gittern und lernen Reduktionsbegriffe kennen.
1. Gitter
Wir betrachten den Rn mit dem kanonischen Skalarprodukt
h·, ·i : Rn × Rn → R mit
p
hu, vi = uT v und der euklidischen Norm kuk = hu, ui.
Def inition 16.1 (Gitter). Zu linear unabhängigen Vektoren b1 , . . . , bm ∈ Rn heißt
(m
)
X
L(b1 , . . . , bm ) :=
ti b i t i ∈ Z ⊂ R n
i=1
das Gitter mit Basis b1 , . . . , bm und Rang m.
Beispiel 16.2. Zu A ∈ Mm,n (R) ist Lös(A, 0) ∩ Zn = {x ∈ Zn | Ax = 0 } ein Gitter
vom Rang n − rang A.
Ein Gitter (Lattice) L(b1 , . . . , bm ) ⊆ span(b1 , . . . , bm ) ist das diskrete Analogon zu
R-Vektorräumen. Ein Gitter L ⊆ Rn ist eine additive Untergruppe des Rn . Was
bedeutet, dass L diskret ist?
Lemma 16.3. Sei L ⊆ Rn eine additive Untergruppe. Dann sind folgende Aussagen
äquivalent:
a) L hat keinen Häufungspunkt im Rn .
b) Für alle r > 0 ist die Menge {x ∈ L : kxk ≤ r} endlich.
Eine additive Untergruppe L ⊆ Rn mit diesen Eigenschaften heißt diskret. Gitter sind
genau die additiven Untergruppen des Rn :
Satz 16.4. Sei L ⊆ Rn eine additive Untergruppe, dann sind folgende Aussagen
äquivalent:
a) L ist ein Gitter.
201
202
16. Gittertheorie
b) L ist diskret.
Beweis. Für die Implikation a)⇒b)“ sei L := L(b1 , . . . , bm ) ein Gitter mit Basis
”
b1 , . . . , bm . Sei ϕ : Rm → span(b1 , . . . , bm ) der Vektorraum-Isomorphismus mit
m
X
ti b i .
ϕ(t1 , . . . , tm ) :=
i=1
ϕ(Zm )
Zm
Es gilt
= L. Offenbar ist
L ⊆ span(L) ebenfalls diskret ist.
⊆
Rm
diskret und weil ϕ−1 stetig ist, folgt, dass
Umgekehrt sei L ⊆ Rn eine diskrete, additive Untergruppe. Setze m := dim span(L).
Wir konstruieren eine Basis b1 , . . . , bn durch Induktion über m:
• Verankerung für m = 1: Wähle einen kürzesten Vektor b1 ∈ L \ {0}. Dann
gilt L = L(b1 ). Denn angenommen, es gäbe einen Vektor b ∈ L \ L(b1 ).
Wegen span(b) = span(b1 ) gibt es ein t ∈ R \ Z mit b = tb1 . Dann ist auch
b0 := b − bte · b1 ∈ L, wobei bte := dt − 21 e die nächste, ganze Zahl zu t
bezeichnet. Es gilt b0 = t0 b1 6= 0 mit 0 < |t0 | ≤ 21 , also
0
b = |t0 | · kb1 k ≤ 1 kb1 k ,
2
ein Widerspruch zur Wahl von b1 mit minimaler Länge.
• Induktionsschluß von m − 1 auf m: Wegen m = dim span(L) gibt es im
Raum span(L) lineare unabhängige Vektoren v1 , . . . , vm . Nach Induktionsvoraussetzung ist
L0 := L ∩ span(v, . . . , vm−1 )
0
ein Gitter
Pmvom Rang m − 1. Sei b1 , . . . , bm−1 eine Basis des Gitters L . Wähle
bm := i=1 ti vi ∈ L mit minimalem tm > 0. Weil L diskret ist, gibt es ein
solches tm . Es folgt L = L(b1 , . . . , bm ).
Def inition 16.5 (Basis, Gram-Matrix, Gitterdeterminante). Sei L := L(b1 , . . . , bm ) ⊆
Rn ein Gitter. Dann ist
B := b1 · · · bm ∈ Mn,m (R)
eine Basismatrix zu L und wir schreiben L = L(B). Die m × m-Matrix B T B heißt
1
Gram-Matrix von B und det L := det(B T B) 2 die Determimante von L.
Wir zeigen, dass Rang und Determinante von L von der Wahl der Basis unabhängig
sind:
Lemma 16.6. Sei B eine Basismatrix zum Gitter L ⊆ Rn vom Rang m und B 0
eine Basismatrix zum Gitter L0 ⊆ Rn vom Rang m0 . Dann sind folgende Aussagen
äquivalent:
a) Beide Gitter sind gleich: L = L0 .
b) Es ist m = m0 und es existiert eine ganzzahlige, unimodulare Matrix
T ∈ GLm (Z) = {U ∈ Mm,m (Z) | det U = ±1 }
mit
B0
= BT .
1. Gitter
203
Beweis. Betrachten wir die Implikation a)⇒b)“. Wegen L = L0 gilt m = m0 . Aus
”
L0 ⊆ L folgt m0 ≤ m. Insbesondere ist jeder Spaltenvektoren von B 0 ein Gittervektor
von L, d.h. eine ganzzahlige Linearkombination der Spalten von B. Es existert eine
ganzzahlige Matrix T ∈ Mm,m (Z) mit B 0 = BT :
m = m0 = rang B 0 = rang(BT ) ≤ T ≤ m.
Also gilt rang T = m und die ganzzahlige Matrix T ist invertierbar:
B 0 T −1 = B.
Aus Symmetriegründen (d.h. L0 ⊇ L) ist T −1 eindeutig bestimmt und ganzzahlig,
somit | det T | = 1. Die Rückrichtung ist offensichtlich.
Nach Lemma 16.6 haben Basismatrizen eines Gitters denselben Rang. Betrachten wir
die Determinante:
Lemma 16.7. Sei L(B) = L(B 0 ). Dann gilt det B T B = det B 0 T B 0 .
Beweis. Gemäß Lemma 16.6 existiert ein T ∈ GLm (Z) mit B 0 = BT und | det T | = 1.
Aus
T
det B 0 B = det(BT )T (BT ) = det B T B · (det T )2 = det B T B
| {z }
=1
Abbildung 1. Grundmasche P(b1 , b2 ) von b1 , b2
b2
pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp
pp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppp
ppppppppppppppppppppppppppppppp
p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp
ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppp
p p p p p p P(b
p p p p p p p p 1p p p,p pbp p 2p p )p p p p p p p p
ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppp
ppppppppppppppppppppppppppppppp
p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppppp ppppp ppppp ppppp ppppp ppppp pp
pp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pp pp pp pp pp
b
1
0
Def inition 16.8 (Grundmasche). Zur Gitterbasis b1 , . . . , bm ⊆ Rn heißt
(m
)
X
P(b1 , . . . , bm ) :=
ti b i 0 ≤ t 1 , . . . , t n < 1
i=1
Grundmasche zu b1 , . . . , bm .
Das Volumen der Grundmasche entspricht der Determinante des erzeugten Gitters:
Lemma 16.9. Für jedes Gitter L := L(B) ⊆ Rn vom Rang m gilt det L = volm (P(B)).
204
16. Gittertheorie
Beweis. Im Fall m = n, d.h. das Gitter ist volldimensional, gilt:
1
1
det L = (det B T B) 2 = (det B · det B) 2 = det B = volm (P(B)).
Im Fall m < n gibt es eine isometrische Abbildung T : span(L) → Rm , die Skalarprodukt und Volumen erhält:
det L = det T (L) = volm (T (P(B))) = volm (P(B)).
Jeder (geordneten) Gitterbasis b1 , . . . , bm ∈ Rn ordnet man ein Orthogonalsystem
bb1 , . . . , bbm ∈ Rn gemäß Schmidt’schem Orthogonalisierungsverfahren zu:
bbi := bi −
i−1
X
hbi , bbj i
kbbj k2
j=1 | {z
}
·bbj
für i = 1, 2, . . . , m.
=:µi,j
Mit den Gram-Schmidt-Koeffizienten µi,j gilt:
bi = bbi +
i−1
X
j=1
µi,jbbj .
für i = 1, 2, . . . , m.
(41)
Der Vektor bbi ist die Projektion πi (bi ) von bi auf den Raum span(b1 , . . . , bi−1 )⊥ . Man
definiert µi,j := 0 für j > 0 und µi,i := 1, um die Gleichungen (41) in Matrixschreibweise darzustellen:


1 µ2,1 · · · µm−1,1
µm,1

µm−1,2
µm,2 

0 1


.
.
.
.
b
b
.
.
.
.
b 1 · · · b m = b1 · · · b m ·  .
.
.
.
. 


0

0
1
µm,m−1
0 ···
0
0
1
|
{z
}
T
= µi,j
1≤i,j≤m
Ein Ziel der Gitterreduktion ist das Finden eines kürzesten nicht-trivalen (d.h. ungleich der Nullvektor) Gittervektors in L. Dessen Länge heißt das erste sukzessive
Minimum λ1 (L) von L:
Def inition 16.10 (Sukzessive Minima). Zu einem Gitter L ⊆ Rn vom Rang m
heißen die Werte
Es existieren linear unabhängige
λi (L) := min r > 0 v1 , . . . , vi ∈ L mit max kvi k ≤ r.
für i = 1, 2, . . . , m sukzessive Minima von L.
Es gilt λ1 (L) ≤ λ2 (L) ≤ · · · ≤ λm (L).
2. Gitterreduktion
205
2. Gitterreduktion
Ziel der Gitterreduktion ist es, eine reduzierte Basis für ein gegebenes Gitter zu finden.
Die Vektoren der Basis sollen (weitgehend)
• orthogonal sein und
• die Länge der Basisvektoren den sukzessiven Minima entsprechen.
Wir analysieren zuerst den Fall von Gitter mit Rang 2. Betrachte Abbildung 2: Liegt
der Vektor b2 im markierten Bereich, also − 12 ≤ µ2,1 ≤ + 12 , ist die Basis b1 , b2
reduziert:
Def inition 16.11 (Reduzierte Basis). Eine (geordnete) Basis b1 , b2 ∈ Rn heißt reduziert, wenn
a) kb1 k ≤ kb2 k.
b) |µ2,1 | ≤ 21 .
Abbildung 2. Reduzierte Basis b1 , b2
|µ2,1 | ≤
1
2
ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp
ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp b2
ppp ppp ppp ppp ppp ppp ppp ppp ppp pp pp pp pp p p p p p p p p p p p p p pp pp pp pp ppp ppp ppp ppp ppp ppp ppp ppp ppp
p p pp pp ppp ppp
ppp ppp pp pp p p
r
- b1
0
pppp pppp ppp ppp pp pp p p p
p p pp pp ppp ppp
pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pppp pppp pppp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp
pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp
ppppppppppppppppppppppppppppppppppppppp
Algorithmus 3 transformiert die gegebene Basis b1 , b2 in eine reduzierte Basis
desselben Gitters. Reduzierte Basen realisieren die beiden sukzessiven Minima des
Gitters:
Fakt 16.12. Sei b1 , b2 eine reduzierte Basis eines Gitters L. Dann gilt λ1 (L) = kb1 k
und λ2 (L) = kb2 k.
Ein Reduktionsbegriff für Gitter vom Rang m ≥ 2 stammt von A.K. Lenstra,
H.W. Lenstra und L. Lovász [LLL82]:
206
16. Gittertheorie
Abbildung 3. Reduktions-Algorithmus
Eingabe: Basis b1 , b2 ∈ Rn
(1) b2 := b2 − bµ2,1 e · b1 .
(2) IF kb2 k < kb1 k THEN swap(b1 ,b2 ); GOTO 1.
Def inition 16.13 (L3 -reduzierte Basis). Eine (geordnete) Basis b1 , . . . , bm ∈ Rn
heißt L3 -reduziert mit Parameter δ ∈ ( 14 , 1], wenn
(L1) |µi,j | ≤ 12 für 1 ≤ j < i ≤ m.
(L2) δ · kbbk−1 k2 ≤ kbbk k2 + µ2k,k−1 · kbbk−1 k2 für k = 2, 3, . . . , m.
Für eine L3 -reduzierte Basis b1 , . . . , bm gilt
kbbk−1 k2 ≤ α · kbbk k2
(42)
mit α := (δ − 41 )−1 , denn wegen Eigenschaft L1 ist µ2k,k−1 ≤ 41 und Ungleichung
(42) folgt aus Eigenschaft L2. In [LLL82] wurden die Parameter δ = 43 und α =
2 benutzt. Man kann eine gebenene Basis effizient in eine L3 -reduzierte desselben
Gitters überführen [LLL82]:
Fakt 16.14. Der Reduktions-Algorithmus von Lenstra, Lenstra und Lovász
transformiert eine gegebene Gitterbasis b1 , . . . , bm ∈ Zn in eine L3 -reduzierte zum
Parameter δ < 1 in O(m3 n log B) arithmetischen Schritten auf ganzen Zahlen der
Bitlänge O(n log B) mit B := maxi kbi k2 .
Bemerkung 16.15. Die Laufzeit des Reduktions-Algorithmus’ und die auftretenden Bitlängen sind ebenfalls polynomiell beschänkt, wenn die Basis aus rationalen
Vektoren besteht.
Mit Hilfe des L3 -Reduktions-Algorithmus’ können wir den kürzesten, nicht-trivialen
Gittervektor bis auf einen exponentiellen Faktor approximieren:
Satz 16.16. Sei b1 , . . . , bm ∈ Rn eine L3 -reduzierte Basis des Gitters L. Dann gilt
mit α := δ−1 1 :
4
kb1 k2 ≤ αm−1 · λ1 (L).
Pm
Beweis. Sei v =
i=1 ti bi ∈ L ein Gittervektor mit kvk = λ1 (L). O.B.d.A. sei
tm 6= 0, sonst erniedrige m. Es gilt:
T
v = b1 · · · bm · t = bb1 · · · bbm µi,j 1≤i,j≤m · t.
Wir erhalten kvk2 ≤ t2m · kbbm k2 ≤ kbbm k2 . Andererseits gilt wegen Ungleichung (42):
kb1 k2 = kbb1 k2 ≤ α · kbb2 k2 ≤ · · · ≤ αm−1 · kbbm k2
Somit ist kb1 k2 ≤ αm−1 · kvk2 = αm−1 λ1 (L)2 .
Wir zitieren weitere Eigenschaften L3 -reduzierter Basen [LLL82]:
2. Gitterreduktion
207
Fakt 16.17. Sei b1 , . . . , bm ∈ Rn eine L3 -reduzierte Basis des Gitters L zum Parameter δ. Dann gilt mit α := δ−1 1 :
4
2
a) α1−j ≤
kbbj k
kbj k2
≤
≤ αm−1 für j = 1, . . . , m.
λj (L)2
λj (L)2
n−1
2
b) kb1 k2 ≤ α 2 (det L) m .
m
m
Q
c)
kbi k2 ≤ α( 2 ) (det L)2 .
i=1
In den beiden folgenden Abschnitt stellen wir Anwendungen der Gitterreduktion vor.
Simultane Diophantische Approximation. Beim Problem der simultanen Diophantischen Approximation sucht man zu gegebenen α1 , . . . , αn ∈ Q und ∈ (0, 1)
Zahlen p1 , . . . , pn , q ∈ Z mit
αi − pi ≤ i=1,. . . ,n
q q
und 1 ≤ q ≤ −n . Ein klassischer Satz von Hermite besagt, dass eine Lösung existiert.
Wir zeigen, dass man mit dem L3 -Algorithmus eine Lösung berechnen kann, wird die
Restriktion bezüglich q abgeschwächt zu:
1≤q≤2
n(n+1)
4
−n =: δ.
Wir bestimmen eine L3 -reduzierte Basis b1 , . . . , bn+1 des Gitters L ⊆ Qn , welches von
folgender Basismatrix erzeugt wird:


1 0 · · · 0 0 −α1
0 1
0 0 −α2 


 ..
..
.. 
..
.
.
.
. 
B := 
(43)
 ∈ Mn+1,n+1 (Q).
0 0
1 0 −αn−1 


0 0 · · · 0 1 −αn 
0 0 ··· 0 0
/δ
Offenbar ist det L = /δ. Für jede L3 -reduzierte Basis b1 , . . . , bn+1 können wir die
Länge des ersten Basisvektors wie folgt abschätzen:
2
2
n
n
n
n
n+1
= 2 2 · 2− 2 2 = 2 .
(44)
kb1 k2 ≤ 2 2 · (det L) n+1 = 2 2 ·
δ
Sei (p1 , . . . , pn , q) ∈ Zn+1 der Koeffizientenvektor von b1 bezüglich der Basismatrix B
aus (43):


p1 − qα1


..


.
b1 = 

pn − qαn 
q/δ
O.B.d.A. sei q ≥ 0, sonst betrachte −b1 . Es gilt in Verbindung mit Abschätzung (44)
n
X
q 2 2
kb1 k2 =
(pi − αi q)2 + 2 ≤ 2 ,
δ
i=1
208
16. Gittertheorie
so dass jede Komponente absolut durch beschränkt ist:
|pi − αi q| ≤ für i = 1, . . . , n
q/δ ≤ .
Es ist q > 0, da für q = 0 wegen b1 6= 0 mindestens ein ganzzahliges pi 6= 0 ist
und die Abschätzung |pi | ≤ < 1 nicht erfüllt wäre. Wir dividieren
durch
q ≥ 1
pi δ
bzw. multiplizieren die letzte Ungleichung mit und erhalten αi − q ≤ q mit
1 ≤ q ≤ δ.
Satz 16.18. Es gibt einen Polynomialzeit-Algorithmus, der zu α1 , . . . , αn ∈ Q und
∈ (0, 1) Zahlen p1 , . . . , pn , q ∈ Z mit
αi − pi ≤ i=1,. . . ,n
q q
und 1 ≤ q ≤ 2
n(n+1)
4
−n liefert.
Rucksack-Problem. Beim Rucksack-Problem (auch Subsetsum-Problem genannt)
sind zu a1 , . . . , an ∈ N und s ∈ N ein Vektor e ∈ {0, 1}n mit
n
X
ei ai = s
i=1
zu bestimmen oder zu zeigen, dass ein solcher nicht existiert. Zwar können wir effizient
überprüfen, ob ein Vektor e eine Lösung darstellt, vermutlich gibt es aber keinen
Polynomialzeit-Algorithmus, der eine Lösung bestimmt:
Fakt 16.19 (Cook, Levin). Die Sprache
(
)
n
X
(n, a1 , . . . , an , s) ∈ Nn+2 ∃e ∈ {0, 1}n :
ei ai = s
i=1
ist N P-vollständig.
Gibt es ein Polynomialzeit-Entscheidungsverfahren für die Rucksack-Sprache, so
kann jede nicht-deterministische Turingmaschine in Polynomialzeit deterministisch
simuliert werden.
Zu einem gegebenen Rucksack-Problem (n, a1 , . . . , an , s) ist das inverse Problem
erklärt durch
n, a1 , . . . , an , s :=
n
X
i=1
ai − s .
Eine Lösung e des Ausgangsproblems liefert unmittelbar eine Lösung e des inversen
Problems und umgekehrt:
n
X
i=1
ei ai = s
⇐⇒
n
X
i=1
(1 − ei ) ai = s.
| {z }
=ei
2. Gitterreduktion
209
Fakt 16.20 (Lagarias, Odlyzko 1985). Für fast alle (a1 , . . . , an ) ∈ [1, A]n mit Dichte
n
d := log max
< 0, 6463 löst der kürzeste Gittervektor des Gitters erzeugt von der
i ai
2
Basismatrix


1
0
···
0
0


..

.
1
0 
q

 0
1

..
.
.
b1 · · · bn+1 = 
,
N
>
..
.. 
2 n,
 .


 0
0
···
1
0 
N a1 N a2 · · · N an N s
entweder das Rucksack-Problem oder das inverse Problem.
Einer Lösung e = (e1 , . . . , en ) des Rucksack-Problems ordnen wir folgenden Gittervektor zu

  
e1
e1
n
  .. 

..
X
 .

.
v(e) :=
ei bi − bn−1 = 
 =  .
 en 

i=1
Pn en
N
0
i=1 ei ai − s)
p
p
Es gilt kvk ≤ n/2 oder kvk ≤ n/2 für den Vektor assoziert mit der Lösung e
des inversen Problems, da eine der beiden Lösungvektoren maximal 12 n Eins-Einträge
hat.
Coster, Joux, LaMacchina, Odlyzko, Schnorr und Stern [CJLOSS92]
haben das Resultat durch Modifikation der Gitterbasis zu


1
1
0
···
0
2


..
1 
 0
.
1
2


..
..  ,
.
b1 · · · bn+1 = 
.
 .
.
. 


1 
 0
0
···
1
2
N a1 N a2 · · · N an N s
verbessert (CJLOSS-Gitter). Der Lösungsvektor
v(e) :=
n
X

e1 − 21
 .. 


=  . 1
en − 
2
0

ei bi − bn−1
i=1
hat die Länge
v
u n
uX
2
√
ei − 12 = 12 n,
kvk = t
i=1
sofern die Lösung e jeweils 21 n-viele Koordinaten ei = 0 und ei = 1 hat. Damit ist die
p
Länge des Lösungsvektors um den Faktor 1/2 kleiner als beim Gitter von Lagarias und Odlyzko, während die Gitterdeterminanten beider Gitter von derselben
Größenordnung sind.
210
16. Gittertheorie
Fakt 16.21. Für fast alle (a1 , . . . , an ) ∈ [1, A]n mit Dichte d < 0, 9408 löst der
kürzeste Gittervektor des CJLOSS-Gitters entweder das Rucksack-Problem oder das
inverse Problem.
Anhang A
Grundbegriffe
1. Notationen
Wir wiederholen die aus der Schulmathematik bekannten Notationen für Zahlmengen.
Es bezeichne
• N = {1, 2, 3, . . . } die Menge der natürlichen Zahlen,
• N0 = {0, 1, 2, . . . } die Menge der natürlichen Zahlen mit 0,
• Z = {0, ±1, ±2, . . . } die Menge der ganzen Zahlen,
• Q = ab a, b ∈ Z, b 6= 0 die Menge der rationalen Zahlen, und
• R die Menge der reellen Zahlen.
Manche Autoren verwenden das Symbol N für die Menge N0 = {0, 1, 2, . . . }.
Als Abkürzung für Summen und Produkte reeller Zahlen x1 , . . . , xn schreiben wir
n
n
X
Y
xi = x1 + x2 + · · · + xn
und
xi = x1 · x2 · · · xn
i=1
i=1
Gegebenenfalls schränken wir den Laufindex zusätzlich ein, wie beispielsweise in der
folgenden Formel, die gleichzeitig eine doppelte Summation zeigt:
n X
m
n
X
X
xi,j =
(xi,1 + · · · + xi,i−1 + xi,i+1 + · · · + xi,m )
i=1 j=1
j6=i
i=1
P
Q
Die leere“ Summe 0i=1 xi setzen wir auf 0. Das leere“ Produkt 0i=1 sei 1.
”
”
Neben den lateinischen Buchstaben A, . . . , Z, a, . . . , z werden in der Mathematik häufig die griechischen Klein- und Großbuchstaben verwendet. Dabei sind die in
der Tabelle nicht aufgeführten griechischen Großbuchstaben mit den entsprechenden
lateinischen Großbuchstaben identisch.
2. Logik
Die klassische Aussagenlogik geht von zwei Wahrheitswerten 1 (wahr) und 0 (falsch),
aussagenlogischen Variablen und Funktionen ∨ (oder), ∧ (und), ¬ (nicht) aus. Eine
211
212
A. Grundbegriffe
Großbuchstabe
Γ
∆
Θ
Λ
Kleinbuchstabe
α
β
γ
δ
, ε
ζ
η
θ, ϑ
ι
κ
λ
µ
ν
Name
Alpha
Beta
Gamma
Delta
Epsilon
Zeta
Eta
Theta
Iota
Kappa
Lambda
Mu
Nu
Großbuchstabe
Ξ
Π
Σ
Υ
Φ
Ψ
Ω
Kleinbuchstabe
o
ξ
o
π, $
ρ, %
σ, ς
τ
υ
φ, ϕ
χ
ψ
ω
Name
O
Xi
O
Pi
Rho
Sigma
Tau
Upsilon
Phi
Chi
Psi
Omega
aussagenlogische Variable a kann die Werte 0 und 1 annehmen und die Funktionen
der Variablen a, b definiert man durch den Verlauf der Wahrheitswerte:
a
0
0
1
1
b
0
1
0
1
¬a a ∧ b a ∨ b
1
0
0
1
0
1
0
0
1
0
1
1
Allgemeiner kann man komplexere Formeln durch Verschachtelung aufbauen, beispielsweise für zwei Formeln ¬a und b ∨ c die Formel (¬a) ∧ (b ∨ c) bilden. Zur Vereinfachung der Klammerschreibweise legen wir folgende Bindungsprioritäten fest: ¬
vor ∧ vor ∨. Dadurch können wir Klammern entfallen lassen und erhalten beispielsweise aus (¬a) ∧ (b ∨ c) die Vereinfachung ¬a ∧ (b ∨ c). Dies entspricht der bekannten
Vereinfachung der Klammerschreibweise bei Multiplikation und Addition für reelle
Zahlen.
Belegt man die Variablen in einer aussagenlogischen Formel, kann man den Wahrheitswert der Formel berechnen, indem man die Werte von innen nach außen“ be”
rechnet. Für zwei aussagenlogischen Formeln A und B (über den gleichen Variablen)
schreiben wir A = B, wenn die Wahrheitswerte von A und B unter allen Belegungen
der Variablen identisch sind.
Neben den offensichtlichen Eigenschaften für die Funktionen ∧, ∨ und ¬ wie
beispielsweise A ∧ B = B ∧ A, A ∨ B = B ∨ A und ¬¬A = A gelten die beiden
folgenden wichtigen Regeln:
• Regel von DeMorgan: ¬(A ∧ B) = ¬A ∨ ¬B und ¬(A ∨ B) = ¬A ∧ ¬B
• Distributivität: (A ∨ B) ∧ C = (A ∧ C) ∨ (B ∧ C) und (A ∧ B) ∨ C =
(A ∨ C) ∧ (B ∨ C)
Man verifiziere diese Regeln durch den Werteverlauf.
Eine Implikation oder Folgerung A ⇒ B ( wenn A, dann B“) ist definiert durch
”
A ⇒ B = ¬A ∨ B
2. Logik
213
Wir sagen, dass die Aussage A die Aussage B impliziert bzw. dass A hinreichend für
B ist. Umgekehrt sagen wir, dass B aus A folgt bzw. dass B notwendig für A ist. Wir
nennen A Voraussetzung oder Annahme und B Folgerung.
Eine Äquivalenz A ⇔ B ( A genau dann, wenn B“) ist definiert durch
”
A ⇔ B = (A ⇒ B) ∧ (B ⇒ A)
Wir sagen, dass A und B äquivalent sind bzw. das A notwendig und hinreichend für
B (und umgekehrt) ist. Bezüglich der Bindung gelte ¬ vor ∧ vor ∨ vor ⇒ vor ⇔.
Implikationen A ⇒ B sind stets nur in eine Richtung zu lesen“. Die Umkehrung
”
gilt im allgemeinen nicht, wie das folgende Beispiel zeigt:
Eine natürliche Zahl größer als 5 ist auch größer als 3.
Um die Implikation besser hervorzuheben, formulieren wir die Aussage (und auch die
folgenden Beispiele) in eine explizite wenn. . . dann“-Aussage um.
”
Wenn eine natürliche Zahl größer als 5 ist, dann ist sie größer als 3.
Die Umkehrung der Aussage ist:
Wenn eine natürliche Zahl größer als 3 ist, dann ist sie größer als 5.
Offensichtlich ist die Zahl 4 ein Gegenbeispiel.
Wir betrachten einige elementaren Eigenschaften von Implikationen, die sich unmittelbar aus der Charakterisierung durch die logischen Verknüpfungen ergeben. Diese Eigenschaften bilden die Grundlage für das folgende Kapitel über Beweistechniken.
• Kontraposition: A ⇒ B = ¬B ⇒ ¬A
• Transitivität: (A ⇒ B) ∧ (B ⇒ C) ist hinreichend für A ⇒ C
• Kontradiktion: A ⇒ B = A ∧ ¬B ⇒ 0
Die Transitivität besagt, dass man aus A ⇒ B und B ⇒ C die Aussage A ⇒ C
schliessen kann. Möchte man beispielsweise die Äquivalenz der Aussagen A, B und
C beweisen, so genügt es wegen der Transitivität, A ⇒ B, B ⇒ C und C ⇒ A
zu zeigen (Ringschluß). Die Kontradiktion besagt, dass die Hinzunahme von ¬B zur
Voraussetzung A auf einen Widerspruch führt.
Die Prädikatenlogik führt zusätzlich den Allquantor ∀ und den Existenzquantor ∃
ein. Die Interpretation der Formeln ∀x : A bzw. ∃x : B ist, dass die aussagenlogische
Formel A für alle x gilt bzw. dass es ein x gibt, so dass die aussagenlogische Formel B
gilt; die Formeln A bzw. B hängen dabei im allgemeinen von x ab. Das Universum“,
”
aus dem x stammt, geht in der Regel aus dem Kontext hervor. Tatsächlich ist die
Wahl dieses Universums“ entscheidend für die Gültigkeit der Formeln, wie wir an
”
einem Beispiel sehen werden. Der Begriff der Gültigkeit ist bei prädikatenlogischen
Formeln komplizierter zu formalisieren als bei aussagenlogischen Formeln. Wir verzichten daher hier auf eine Definition und beschränken uns auf die oben angegebene
Interpretation.
Prädikatenlogische Formeln können wie aussagenlogische Formeln verschachtelt
werden, so dass beispielsweise Formeln der Form ∀x : (A ⇒ ∃y : B) möglich sind.
214
A. Grundbegriffe
Dabei nehmen wir an, dass Quantoren stärker binden als aussagenlogische Funktionen. Tritt der gleiche Quantorentyp hintereinander auf, so faßt man diese Quantoren
im allgemeinen zusammen, z.B. ∀x : ∀y : A zu ∀x, y : A. Für die Quantoren gelten
folgende Regeln:
¬ ∀x : A = ∃x : ¬A
und
¬ ∃x : A = ∀x : ¬A.
Beachte, dass ¬ ∀x : A = ¬ (∀x : A) nach Festlegung der Bindungprioritäten. Bei
Verschachtelung erhält man beispielsweise die Äquivalenz von ¬ ∃x : ∀y : A und
∀x : ∃y : ¬A.
Wir betrachten ein Beispiel. Sei < das bekannte Kleiner-Als“-Prädikat über den
”
reellen bzw. natürlichen Zahlen: a < c ist genau dann wahr, wenn es eine positive
Zahl b ∈ R mit a + b = c gibt. Gegeben sei die Formel
∀r, t : r < t ⇒ ∃s : (r < s ∧ s < t) ,
die ausdrückt, dass zwischen zwei verschiedenen Zahlen r, t stets eine weitere Zahl
s liegt. Betrachten wir r, s, t über den reellen Zahlen, gilt diese Formel, denn s =
1
2 (r + t) ∈ R erfüllt für alle r, t mit r < t die Bedingung. Über den natürlichen Zahlen
gilt die Aussage nicht, denn zwischen r und t = r + 1 liegt keine weitere natürliche
Zahl.
3. Beweistechniken
Um mathematische Aussagen von der Form A ⇒ B zu beweisen, gibt es elementare
Vorgehensweisen, von denen wir hier einige wichtige vorstellen.
Direkte Beweise. Bei einem direktem Beweis wird die Aussage A ⇒ B zerlegt
in Aussagen der Form A ⇒ A1 , A1 ⇒ A2 , . . ., An−1 ⇒ An , An ⇒ B. Aus der
Transitivität folgt dann die Behauptung A ⇒ B. Die einzelnen Implikationen können
dann mit einer der in diesem Kapitel aufgeführten Beweistechniken gezeigt werden
bzw. sind meistens einfach zu sehen. Setzt man beispielsweise als bekannt voraus,
dass das Produkt und die Summe zweier natürlicher Zahlen positiv ist, so läßt sich
die Aussage
Wenn m > n für natürliche Zahlen m, n gilt, dann ist m2 > n2 .
durch einen direkten Beweis zeigen: Aus m > n folgt m = n + k für eine natürliche
Zahl k. Mit dem Binomischen Lehrsatz erhalten wir m2 = (n+k)2 = n2 +2nk+k 2 . Die
letzten beiden Summanden sind das Produkt natürlicher Zahlen und damit ebenso
wie die Summe 2nk + k 2 positiv. Wir schließen, dass m2 = n2 + 2nk + k 2 > n2 .
Obwohl wir die Aussage als wenn. . . dann“-Aussage formuliert haben, ist sie im”
plizit eine prädikatenlogische Formel: über den natürlichen Zahlen gilt ∀m, n : (m >
n ⇒ m2 > n2 ). Die angegebene Aussage entspricht der sprachlichen Übersetzung
dieser Formel, da wir in der Annahme beliebige natürliche Zahlen m, n mit m > n
voraussetzen.
3. Beweistechniken
215
Vollständige Induktion. Die vollständige Induktion erlaubt es, Eigenschaften bezüglich der natürlichen Zahlen zu beweisen: Wenn für eine Zahl m die Eigenschaft
E(m) gilt und für alle n ≥ m folgt E(n + 1) aus E(n), dann gilt E(n) für alle n ≥ m.
Wir betrachten ein Beispiel:
Wenn n ≥ 3 für n ∈ N ist, dann gilt 2n > 2n.
Wir beweisen diese Aussage durch vollständige Induktion: In der Induktionsverankerung zeigen wir, dass die Formel für n = 3 gilt. Dies folgt durch unmittelbares
nachrechnen. Im Induktionsschritt zeigen wir, dass aus der Induktionsvoraussetzung
2n > 2n auch 2n+1 > 2(n + 1) folgt. Durch die Induktionsvoraussetzung erhalten wir
2n+1 = 2 · 2n = 2n + 2n > 2n + 2n
Andererseits gilt offensichtlich 2n ≥ 2 für alle n ≥ 1 und damit auch für n ≥ 3. Es
folgt
2n+1 > 2n + 2n ≥ 2n + 2 = 2(n + 1)
und daraus die Behauptung.
Folgt die Eigenschaft E(n+1) nicht nur aus E(n), sondern beispielsweise aus E(n)
und E(n − 1), so ist die Induktionsverankerung für die Werte E(m) und E(m + 1)
zu zeigen. Die vollständige Induktion besagt in diesem Fall: Wenn E(m), E(m + 1)
gelten und für alle n ≥ m + 1 aus E(n) und E(n − 1) auch E(n + 1) folgt, dann gilt
E(n) für alle n ≥ m.
Beweis durch Kontraposition. Beim Beweis durch Kontraposition zeigt man die
Aussage ¬B ⇒ ¬A, um A ⇒ B zu beweisen. Diese Vorgehensweise ist meistens
einfacher als ein direkter Beweis. Wir demonstrieren die Beweistechnik am Beispiel
der Primzahlen. Aus der Schulmathematik ist bekannt, dass eine natürliche Zahl prim
ist, wenn sie nur durch sich selbst und durch 1 teilbar ist, wobei die 1 als Primzahl
ausgeschlossen wird. Die ersten fünf Primzahlen lauten daher 2, 3, 5, 7, 11. Allgemein
gilt:
Wenn p ∈ N prim ist und p > 2, dann ist p ungerade.
Der Beweis erfolgt durch Kontraposition, d.h. wir zeigen, dass eine gerade Zahl p
nicht prim ist oder p ≤ 2 gilt. Beachte, dass wir hier die DeMorgansche Regel auf
¬(p prim ∧ p > 2)“ angewendet haben. Wenn aber p gerade ist, dann ist p = 2
”
oder p ≥ 4 echt durch 2 teilbar und damit nicht prim. Beweise durch Widerspruch
fomuliert man häufig als Beweis durch Widerspruch:
Beweis durch Widerspruch. Beim Beweis durch Widerspruch (auch Beweis durch
Kontradiktion) beweist man A ⇒ B, indem man zeigt, dass A ∧ ¬B auf einen Widerspruch führt. Beispiel:
Wenn p ∈ N prim ist und p > 2, dann ist p ungerade.
Nehmen wir also an, dass p prim, p > 2 und p gerade ist. Dann ist allerdings die
Primzahl p > 2 echt durch 2 teilbar — Widerspruch zur Eigenschaft von Primzahlen.
216
A. Grundbegriffe
4. Mengen, Relationen und Funktionen
Zur Vereinfachung verwenden wir hier die naive“ Mengenlehre nach Cantor, die be”
sagt, dass jede Eigenschaft E eine Menge ME definiert: die Menge ME = {x | E(x) }
ist die Sammlung“ von Objekten x, für die E(x) erfüllt ist. Obwohl diese Anschau”
ung auf inhaltliche Widersprüche führt (Russelsche Antinomie1), genügt sie für eine
elementare Einführung der Begriffe.
Wir führen zunächst einige Notationen ein. Seien X, Y Mengen. Ist x ein Element
der Menge X, dann schreiben wir x ∈ X. Wir sagen auch, dass x in X liegt bzw. das
x in X enthalten ist. Die Menge X ist eine Teilmenge von Y (X ⊆ Y ), wenn jedes
x ∈ X auch Element von Y ist. Ein Element x ist genau dann in der Vereinigung
X ∪ Y von X und Y , wenn es in mindestens einer der beiden Mengen X und Y liegt.
Das Element x ist genau dann im Durchschnitt X ∩ Y von X und Y enthalten , wenn
es sowohl in X als auch in Y liegt. Die Differenz X \ Y von X und Y enthält alle
Elemente x ∈ X, die nicht in Y liegen. Beachte, dass Y Elemente enthalten kann, die
nicht in X sind (und damit natürlich auch nicht in X \ Y ). Gilt Y ⊆ X, so schreibt
man auch X − Y statt X \ Y . Für eine endliche Menge X heißt die Anzahl |X| der
Elemente in X die Mächtigkeit von X. Für unendliche Mengen ist die Definition der
Mächtigkeit aufwendiger und wir verzichten hier darauf. Mit ∅ bezeichnen wir die
leere Menge, die kein Element enthält. Vereinigung und Durchschnitt zweier Mengen
kann man verallgemeinern:
S
T Für eine nicht-leere Menge I und Mengen Xi für i ∈ I
bezeichnet i∈I Xi bzw. i∈I Xi die Menge, die genau die x enthält, für die ein i ∈ I
mit x ∈ Xi existiert bzw. für die x ∈ Xi für alle i ∈ I. Die Menge I nennen wir in
diesem Fall Indexmenge.
In der Schule verwendet man — bewußt oder unbewußt — zwei Eigenschaften
von Funktionen: Für eine Funktion f : X → Y mit Definitionsbereich X ⊆ R und
Wertebrereich Y ⊆ R gibt es für alle x ∈ X mindestens einen Wert y ∈ Y mit
f (x) = y (so dass f auf X definiert ist) und andererseits höchstens einen Wert
y ∈ Y mit f (x) = y (so dass jedes x auf maximal einen Wert abgebildet wird). Wir
formalisieren diese Eigenschaften, indem wir den Begriff des kartesischen Produkts
und der Relation einführen.
Für zwei Mengen X, Y ist X × Y das Kartesische Produkt, das die Menge bezeichnet, die genau die geordneten Paare (x, y) mit x ∈ X und y ∈ Y enthält. Das
geordnete Paar (x, y) heißt auch Tupel. Allgemeiner kann man das Kartesische Produkt für n Mengen X1 , . . . , Xn definieren. Ein Element (x1 , . . . , xn ) dieses Produkts
heißt dann n-Tupel. Falls X1 = X2 = · · · = Xn schreibt man abkürzend X1n statt
X1 × · · · × Xn . Eine n-stellige Relation R über X1 × · · · × Xn ist eine Teilmenge von
X1 ×· · ·×Xn . Im Fall n = 2, d.h. R ⊆ X ×Y , spricht man von einer binären Relation.
Wir definieren eine Funktion f : X → Y als spezielle binäre Relation f ⊆ X × Y (und
verwenden daher in dieser Definition die Schreibweise (x, y) ∈ f statt f (x) = y), mit
1Betrachte die Menge R aller Mengen, die sich nicht selbst enthalten. Enthält R sich selbst, dann
ist R nicht in R nach Definition. Enthält andererseits R nicht sich selbst, so ist R in R nach Definition
enthalten. Wir erhalten somit den Widerspruch, dass die Menge R sich genau dann enthält, wenn sie
sich nicht enthält.
4. Mengen, Relationen und Funktionen
217
der Eigenschaft, dass für jedes x ∈ X genau ein y ∈ Y mit (x, y) ∈ f existiert. Wir
nennen eine Funktion auch Abbildung.
Für eine Relation R über X ×Y heißt X der Argumentbereich, Y der Wertebereich,
die Menge der x ∈ X, für die ein y ∈ Y mit (x, y) ∈ R existiert, der Definitionsbereich,
die Menge der y, für die ein x mit (x, y) ∈ R existiert, der Bildbereich. Diese Definitionen gelten damit auch für Funktionen, wobei dort Argument- und Definitionsbereich
gleich sind und man mit f (X) oder bild f das Bild von X unter f bezeichnet. Das
Urbild f −1 (y) eines Wertes y ∈ Y unter einer Funktion f : X → Y ist die Menge
aller x ∈ X, für die (x, y) ∈ f . Wir sagen, dass x ein Urbild von y unter f ist, wenn
x ∈ f −1 (y).
Eine Funktion f : X → Y heißt surjektiv, wenn es für alle y ∈ Y ein x ∈ X
mit f (x) = y gibt. Die Funktion f heißt injektiv, wenn für alle y ∈ Y höchstens ein
x ∈ X mit f (x) = y existiert. Sie heißt bijektiv, wenn sie injektiv und surjektiv ist.
Für eine injektive Funktion f : X → Y bezeichnet man mit f −1 : f (X) → X auch
die Umkehrfunktion von f , d.h. die Funktion mit f −1 (f (x)) = f (f −1 (x)) = x für alle
x ∈ X. Beachte, dass die Injektivität garantiert, dass es sich dabei tatsächlich um
eine Funktion handelt, da es zu jedem y maximal ein x mit f −1 (y) = x gibt. Die Umkehrfunktion von f an einer festen Stelle y und das Urbild von y unter f werden mit
dem gleichen Symbol f −1 (y) bezeichnet. Obwohl Verwechselungen prinzipiell möglich
sind, geht im allgemeinen aus dem Zusammenhang hervor, welches Objekt gemeint
ist; bei einer injektiven Funtion f ist das Urbild f −1 (y) für ein y ∈ f (X) insbesondere
genau die einelementige Menge, deren Element der Wert der Umkehrfunktion f −1 an
der Stelle y ist.
Zur Veranschaulichung der Begriffe betrachten wir Funktionen f, g, h : N → N
über den natürlichen Zahlen. Die Funktion f sei definiert durch
f (n) = 2n
Dann ist f injektiv, da f (m) = 2m 6= 2n = f (n) für m 6= n. Die Funktion ist
allerdings nicht surjektiv, da die ungeraden Zahlen keine Urbilder unter f besitzen.
Eine surjektive, aber nicht injektive Funktion ist
(
n
falls n gerade
2
g(n) = n+1
falls n ungerade
2
Offensichtlich bildet g jede ungerade Zahl und die darauffolgende gerade Zahl auf den
gleichen Wert ab. Daher ist g nicht injektiv. Andererseits ist g surjektiv, da für jedes
m der Wert 2m ein Urbild ist.
Ein triviales Beispiel einer bijektiven Funktion über den natürlichen Zahlen ist die
Identitätsfunktion id(n) = n. Wir betrachten als weiteres Beispiel folgende Funktion:
(
n − 1 falls n gerade
h(n) =
n + 1 falls n ungerade
Die Funktion h vertauscht jede ungerade Zahl mit ihrem geraden Nachfolger und ist
daher bijektiv. Ferner ist h die Umkehrfunktion zu sich selbst.
Anhang B
Übungsaufgaben
1. Übungsblatt 1
Aufgabe 1.1. Löse das lineare Gleichungssystem zu folgender erweiterter Matrix
über K = R und K = {0, 1, 2} = Z3 :


2
1 1 2 0
2 1 0 1
0
 ∈ M4,5 (K)
(A, b) = 
0 1 2 0
1
1 1 2 1
2
Aufgabe 1.2. Sei K beliebiger Körper, (A, b) ∈ M2,3 (K) und
det(A) := a11 a22 − a12 a21 ∈ K
sei die Determinante von A. Zeige: Ax = b ist genau dann für alle b ∈ K2 lösbar,
wenn det(A) 6= 0. Hinweis: Zeilen- und Spaltenoperationen ändern |det(A)| nicht.
Aufgabe 1.3. Sei K beliebiger Körper und UDn ⊂ Mn,n (K) die Menge der unteren
Dreiecksmatrizen, d.h. der Matrizen A = (aij )1≤i,j≤n mit aij = 0 für i < j. Zeige:
A, B ∈ UDn ⇒ A · B ∈ UDn .
Aufgabe 1.4. Sei A = (ai,j )1≤i,j≤n ∈ UDn . Zeige: Zu A gibt es genau dann ein
multiplikatives Inverses A−1 ∈ UDn , wenn a11 a22 · · · ann 6= 0. Für A−1 gelte nach
Definition AA−1 = A−1 A = In . Hinweis: Bestimme A−1 durch Rückwärtsauflösen
eines lineare Gleichungssystem in Treppenform.
2. Übungsblatt 2
Aufgabe 2.1. Sei K Körper. Die Operationen + (Addition) und · (Multiplikation)
auf Mn,n (K) sind durch die Körperoperationen von K erklärt:
X
n
(aij ) + (bij ) = (aij + bij ),
(aiν ) · (bνj ) =
aiν bνj
ν=1
Zeige:
219
220
B. Übungsaufgaben
a) Die Multiplikation auf Mn,n (K) ist assoziativ und distributiv.
b) Die Multiplikation auf Mn,n (K) für n ≥ 2 ist nicht kommutativ.
Aufgabe 2.2. Invertiere die Matrix

1
2
A=
0
1
1
1
1
1
2
0
2
2

0
1

0
1
über dem Körper K = {0, 1, 2} mit folgendem Verfahren: Überführe A durch Multiplikation mit Elementarmatrizen von rechts (bzw. links) in I4 . Wende dieselben Transformationsschritte auf I4 an. Zeige: Das Verfahren liefert für beliebige Körper K und
A ∈ Mn,n (K) die inverse Matrix A−1 .
Aufgabe 2.3. Zu A = (aij ) ∈ Mm,n (K) ist AT := (aji ) ∈ Mn,m (K) die transponierte
Matrix. Zeige:
a) (AB)T = B T AT für A ∈ Mm,n (K), B ∈ Mn,k (K).
b) P P T = In gilt für alle Permutationsmatrizen P ∈ Mn,n (K). Hinweis: P =
Vi1 ,j1 · · · Vik ,jk mit Vertauschungsmatrizen Viν ,jν .
Aufgabe 2.4. Sei K Körper und A ∈ Mnn (K). Zeige: Es gibt Permutationsmatrizen
P1 , P2 und T ∈ UDn , B ∈ ODn mit
P1 A P2 = T B.
Hinweis: Ziehe die Zeilen und Spaltenvertauschungen im Gauß-Verfahren vor.
3. Übungsblatt 3
Aufgabe 3.1. Sei
C=
a −b
b a
a, b ∈ R ⊂ M2,2 (R).
Zeige: C ist Körper, C ∼
= C. Es gilt
a −b
` 0
cos ϕ − sin ϕ
=
,
b a
0 `
sin ϕ cos ϕ
wobei die Abbildung
R2 → R≥0 × [0, 2π), (a, b) 7→ (`, ϕ)
a −b
bijektiv ist. Die Abbildung x 7→
x sind die Dreh-Streckungen der reellen
b a
Ebene, erläutere dies.
Aufgabe 3.2. Sei K Körper, G ⊂ Kn Gerade und H ⊂ Kn Hyperebene. Zeige: G, H
sind entweder parallel oder sie haben genau einen Punkt gemeinsam. Der Satz gilt
nicht, wenn man den Körper K durch einen Ring ersetzt, weshalb?
4. Übungsblatt 4
221
Aufgabe 3.3. Sei V ein K-Vektorraum und x1 , . . . , xk ∈ V . Zeige, dass
aspan(x1 , . . . , xk ) := x1 +
k
X
(xi − x1 )K
i=2
der kleinste affine Unterraum ist, der x1 , . . . , xk enthält.
Hinweis: aspan(x1 , x2 ) = x1 +(x2 −x1 )K ist die Gerade durch x1 , x2 . Mit x1 , . . . , xk ∈
A enthält jeder affine Unterraum A auch aspan(x1 , . . . , xk ).
Aufgabe 3.4. Zeige, dass die folgenden Aussagen gelten, wenn man Köraum ersetzt
durch einen der Begriffe Körper, Schiefkörper, Ring, Gruppe, Halbgruppe, Vektorraum, affiner Raum. Sei Y ein Köraum.
T
a) Sind Yi ⊆ Y für i ∈ I Köraume, so auch
Yi .
i∈I
b) Zu X ⊆ Y gibt es einen kleinsten Köraum hXi mit X ⊆ hXi.
Weshalb läßt man zu, dass affine Räume leer sind, aber Vektorräume nicht? Hinweis:
Weise Eigenschaften nach, wie Assoziativität, Kommutativität, Existenz des Inversen
usw.
4. Übungsblatt 4
Aufgabe 4.1. Löse über dem Körper Z5 = {0, 1, 2, 3, 4} das lineare Gleichungssystem
Ax = b mit
2
1 3 4 2
.
(A | b) =
3 4 1 2
3
Konstruiere eine Basis von Lös(A, 0). Erläutere das Lösungsverfahren.
Aufgabe 4.2 (2 zusätzliche Punkte). Sei A ∈ Mm,n (K), K Körper. Zeige: Es gibt
Permutationsmatrizen P, P 0 und T ∈ UDm , T 0 ∈ ODn sowie eine Diagonalmatrix
D ∈ Mm,n (K) mit P AP 0 = T DT 0 .
Dabei gelte für D = (dij ), dass d11 6= 0, . . . , drr 6= 0 und dij = 0 sonst. Ferner sind die Diagonalelemente von T , T 0 alle 1. Erläutere zunächst, dass man nach
Übungsblatt 2, Aufgabe 4, erreichen kann, dass P AP 0 = T B für eine Matrix B in
Treppenform mit r Stufen.
Aufgabe 4.3. Sei G kommutative Gruppe und H ⊆ G Untergruppe. Die Menge
G/H = {aH | a ∈ G } besteht aus den Nebenklassen von H. Zeige: G/H ist Gruppe
mit der Multiplikation
(aH)(bH) = (ab)H.
Zeige zunächst, dass die Multiplikation wohldefiniert ist, d.h. unabhängig von der
Wahl der Repräsentanten.
Aufgabe 4.4 (2 zusätzliche Punkte). Sei C der Körper der komplexen Zahlen. Zeige:
a −b H=
a, b ∈ C ⊂ M2,2 (C) ist Schiefkörper.
b̄ ā 222
B. Übungsaufgaben
Nach Aufgabe 1.2 ist die Matrix genau dann invertierbar, wenn ihre Determinante
aā + bb̄ ungleich Null ist. Zeige, dass die Determinante genau dann null ist, wenn
a = b = 0.
5. Übungsblatt 5
Aufgabe 5.1. Sei
             
2
0
−2
−4
4
4
4 


             

1
3
2
2
5
5
 ,   ,   ,   ,   ,   ,  4  ⊂ R4 .
X := 
 0  7  7   0   6   6   5 





−1
0
1
−2
−2
−2
−3
Konstruiere eine Basis B ⊂ X von span(X ). Beschreibe das Verfahren.
Aufgabe 5.2. Sei K ein Körper, V1 , V2 Vektorräume über K und ψ : V1 → V2 ein
Isomorphismus. Zeige:
a) Die inverse Abbildung ψ −1 : V2 → V1 ist ebenfalls ein Isomorphismus. Hinweis: Es gilt x = y ⇐⇒ ψ(x) = ψ(y), sowie ψ(ψ −1 (x)) = x.
b) Für jede Basis b1 , . . . , bn von V1 gilt, dass ψ(b1 ), . . . , ψ(bn ) eine Basis von
V2 ist. Hinweis: ψ(x) = 0 ⇐⇒ x = 0.
Folgere, dass die Polynome 1, X, . . . , X n eine Basis des Vektorraums K[X]n bilden.
Aufgabe 5.3. Sei A = (aij ) ∈ Mm,n (K). Zeige: Das Gauß’sche Eliminationsverfahren angewandt auf (A | b) benötigt keine Zeilenvertauschung, wenn
(ai1 , . . . , aij ) ∈ Kj i = 1, . . . , j
linear unabhängig ist für j = 1, . . . , n. Gilt auch die Umkehrung?
Aufgabe 5.4. Seien x1 , . . . , xn ∈ Kn linear unabhängig über dem Körper K. Zeige:
Es gibt genau eine Hyperebene H ⊂ Kn mit x1 , . . . , xn ∈ H.
6. Übungsblatt 6
Aufgabe 6.1. Konstruiere die Hyperebene H ⊂ Z57 durch die Punkte (1, 2, 3, 4, 5),
(2, 3, 4, 5, 1), (3, 4, 5, 1, 2), (4, 5, 1, 2, 3), (5, 1, 2, 3, 4). Beschreibe das Verfahren.
Aufgabe 6.2. Seien A, B Matrizen über einem Körper K. Zeige:


..
A . 0 

a) rang 
 . . . . . . . .  = rang(A) + rang(B)
.
0 .. B
b) max(rang(A), rang(B)) ≤ rang(A | B) ≤ rang(A) + rang(B).
Aufgabe 6.3 (2 zusätzliche Punkte). Beweise Satz 3.20 durch Induktion über n:
Je n linear unabhängige Vektoren
 T  a1 , . . . , an
a1
 .. 
Hinweis: Transformiere A =  .  in T AT 0 =
aTn
n
∈
K
a11


0
bildeneine Basis des Kn .
0
. . . . .
 mit invertierbaren
..
0
. A
8. Übungsblatt 8
223
Matrizen T ∈ UDn , T 0 ∈ ODn . Wende die Induktionsannahme auf A0 an. Weshalb
kann man O.B.d.A. annehmen, dass a11 6= 0 ?
Aufgabe 6.4. Sei K Körper und a1 , . . . , an ∈ K paarweise verschieden. Zeige: Die
Vandermonde-Matrix


1
1
···
1
 a1
a2 · · ·
an 


Vn (a1 , . . . , an ) :=  ..
..
.. 
 .
.
. 
n−1
n−1
n−1
a1
a2
· · · an
hat Rang n. Hinweis: Beweis durch Induktion über n.
7. Übungsblatt 7
Aufgabe 7.1. Konstruiere eine Basis des Lösungsraums zum linearen Gleichungssystem
6
X
(1)
ai 2i = 0 ,
i=0
6
X
(2)
ai 3i = 0
i=0
in den Unbestimmten a0 , . . . , a6 über Z11 . Ergänze die Basis jeweils zu Basen der
Lösungsräume der LGS’e (1) und (2).
Aufgabe 7.2. Seien b1 , . . . , bm ∈ Kn , K endlicher Körper und
dim span(b1 , . . . , bm−2 ) = dim span(b1 , . . . , bm ) = m − 2.
Zeige:
a) Es gibt genau eine Darstellung bm−1 =
b) Es gibt genau |K| Darstellungen bm =
m−2
P
λ i bi .
i=1
m−1
P
λ i bi .
i=1
Aufgabe 7.3. Sei K Körper, a1 , . . . , an ∈ K paarweise
verschieden und b1 , . . . , bn ∈
P
i ∈ K[X] mit p(a ) = b für
p
x
K. Zeige: Es gibt genau ein Polynom p(x) = n−1
i
i
i
i=0
i = 1, . . . , n. Hinweis: Schreibe p(ai ) = bi , i = 1, . . . , n, als lineares Gleichungssystem
in p0 , . . . , pn−1 und zeige, dass dieses eindeutig lösbar ist.
Aufgabe 7.4. Zeige: Das Gauß-Verfahren zu (A, b) kommt genau dann ohne Zeilenund Spaltenvertauschungen aus, wenn


a11 · · · a1i

..  = i für i = 1, . . . , rang(A) .
rang  ...
. 
ai1 · · · aii
8. Übungsblatt 8
Aufgabe 8.1. Sei f : U → V Homomorphismus von (endlich dimensionalen) Vektorräumen und U, V zwei K-Vektorräume. Zeige:
a) dim ker f + dim bild f = dim U ,
224
B. Übungsaufgaben
b) Ein surjektives f ist genau dann ein Isomorphismus, wenn dim ker f = 0.
Aufgabe 8.2. Seien U, V zwei K-Vektorräume und f : U → V ein VektorraumHomomorphismus. f werde bezüglich der Basen a1 , . . . , am vonPU und b1 , . . . , bn von
V dargestellt durch die Matrix (fij )T ∈ Mn,m (K) mit f (ai ) = nj=1 fij bj . Zeige:
rang(fij ) = dim f (U ).
Dies rechtfertigt folgende Definition: dim f (U ) heißt der Rang von f .
Aufgabe 8.3. Sei A ∈ Mk,m (K), B ∈ Mm,n (K). Zeige:
rang(AB) ≤ min(rang(A), rang(B)).
Aufgabe 8.4. Seien A, B ∈ Mm,n (K). Zeige:
|rang(A + B) − rang(A)| ≤ rang(B)
Hinweis: Reduziere auf den Fall, dass B eine Diagonalmatrix ist.
9. Übungsblatt 9
Aufgabe 9.1. Die Kodeworte (0, 0, 1, 1, 1, 1, 0), (0, 1, 1, 0, 0, 1, 1), (1, 0, 0, 0, 1, 1, 1) erzeugen einen Code C ⊂ F72 . Konstruiere zu C und C ⊥ eine Generator- und eine
PCH-Matrix in kanonischer Form. Zusatz (2 Punkte): Bestimme d(C), d(C ⊥ ).
Aufgabe 9.2. Der [n, k]-Code C ⊂ Kn habe die Generatormatrix G ∈ Mk,n (K) und
die PCH-Matrix H ∈ Mn−k,n (K). Zeige:
a) Ist G von der Form G = [Ik , A] mit A ∈ Mk,n−k (K), dann ist [−AT , In−k ]
eine PCH-Matrix zu C.
b) Ist H von der Form [B, In−k ] mit B ∈ Mn−k,k (K), dann ist [Ik , −B T ] eine
Generator-Matrix von C.
Es sei K endlicher Körper, |K| = q, Kn sei die Nachrichtenmenge. Wir identifizieren
n
P
mi xi−1 ∈ K[x].
die Nachricht m = (m1 , . . . , mn ) ∈ Kn mit dem Polynom m(x) =
i=1
Sei K = {α1 , ..., αq }. Es gelte n ≤ t ≤ q.
Aufgabe 9.3. Betrachte den linearen Code
C = (m(α1 ), . . . , m(αt )) ∈ Kt m ∈ Kn .
Zeige: C hat die Distanz d(C) = t − n + 1. Hinweis: Benutze Aufgabe 7.3. Warum
nennt man C Interpolationscode?
Aufgabe 9.4. Eine Nachricht m = (m1 , . . . , mn ) ∈ Kn ist derart in m0i ∈ K2 für
i = 1, . . . , t aufzuteilen mit n ≤ t ≤ q, dass man m aus beliebigen n Teilen m0i
rekonstruieren kann. Setze hierzu m0i := (αi , m(αi )) ∈ K2 für i = 1, . . . , t. Gib ein
Verfahren zur Rekonstruktion von m aus m0i1 , . . . , m0in an. (Benutze Aufgabe 3, Blatt
7.)
11. Übungsblatt 11
225
Aufgabe 10.1. Sei C ⊂ Kn ein [n, k]-Code mit PCH-Matrix H ∈ Mn−k,n (K). Zeige:
d(C) ≥ t + 1
⇐⇒
je t Spalten von H sind linear unabhängig über K.
Aufgabe 10.2. Sei C ⊂ Kn ein linearer [n, k]-Code über dem Körper K. Zeige die
Singleton-Schranke:
d(C) ≤ 1 + n − k.
Wenn d(C) = 1+n−k ist, heißt C separabler Maximum-Distanz-Code (MDS-Code).
Hinweis: Benutze Aufgabe 10.1.
Aufgabe 10.3. Die PCH-Matrix des binären 1-fehlerkorrigierenden Hamming-Codes
C3 ⊂ F72 sei


0 0 0 1 1 1 1
H3 =  0 1 1 0 0 1 1  .
1 0 1 0 1 0 1
Gib ein Dekodierverfahren an, das einen Fehler korrigiert, d.h. beschreibe einen Algorithmus zu einer Abbildung dec : F72 → C3 , so dass nach Möglichkeit d(dec(c̃), c̃) ≤ 1
gilt. Hinweis: Fasse die Spalten von H3 als Binärzahlen auf.
Aufgabe 10.4. Sei K ein Körper, U1 , . . . , Un und
⊕ni=1 Ui := {(u1 , ..., ut ) | ui ∈ Ui , i = 1, ..., n }
P
K-Vektorräume endlicher Dimension. Zeige: dim (⊕ni=1 Ui ) = ni=1 dim Ui . Es wird
nicht vorausgesetzt, dass die Ui Untervektorräume eines gemeinsamen Vektorraums
sind.
Aufgabe 11.1. Sei K Körper und a1 , . . . , an ∈ K. Beweise für die VandermondeMatrix:


1
1
···
1
 a1
a2
an 

 Y
det Vn (a1 , . . . , an ) = det  ..
(ai − aj ) .
..
..  =
 .
.
.  i>j
· · · ann−1
an−1
an−1
2
1
Hinweis: Beweis durch Induktion über n. Subtrahiere a1 · Zeilei−1 von Zeilei .
Aufgabe 11.2. Sei LA : Rn → Rn , LA (x) = Ax, die lineare Abbildung zu A ∈
Mn,n (R). Ferner sei P = P (b1 , . . . , bn ) ⊂ Rn ein Parallelflach. Zeige:
vol LA (P ) = |det A| · vol P.
Hinweis: Benutze die Multiplikativität der Determinante.
t
Aufgabe 11.3. Es seien U1 , ..., Ut und ⊕ Ui := {(u1 , ..., ut ) | ui ∈ Ui } K-Vektorräui=1
me. Zeige: Genau dann ist U ∼
= ⊕t Ui , wenn es Monomorphismen hi : Ui → U für
i=1
226
B. Übungsaufgaben
i = 1, . . . , t gibt, so dass jedes u ∈ U eindeutig zerlegbar ist als u =
ui ∈ Ui .
Pt
i=1 hi (ui )
mit
Zusatz (2 Punkte): Zeige die Äquivalenz für Ringe und additive Gruppen anstelle von
Vektorräumen.
Aufgabe 11.4 (2 zusätzliche Punkte). Sei n
Zahlen q1 , q2 . Ferner seien α1 , α2 ∈ Zn gegeben
(
1
αi mod qj =
0
= q1 q2 Produkt zweier teilerfremder
mit
i=j
i 6= j.
Zeige: Zn ∼
= Zq1 × Zq2 .
Hinweis: Benutze die Äquivalenz von Aufgabe 11.3 für Ringe und gib entsprechende Monomorphismen hi : Zqi → Zn , i = 1, 2 an. Zu zeigen ist die eindeutige
Zerlegbarkeit u = h1 (u1 ) + h2 (u2 ) von u ∈ Zn .
Aufgabe 12.1 (2 Punkte). Vergleiche die Eigenschaften (D1), (D2) einer Determinantenfunktion und (D3’) : rang(A) < n =⇒ det A = 0, (D5) : Linearität in jeder
Zeile. Zeige: (D2), (D3’), (D5) =⇒ (D1).
Aufgabe 12.2. Es seien b1 , b2 , . . . , bn ∈ Rn linear unabhängig. Zeige, dass man das
Orthogonalsystem b∗1 , b∗2 , . . . , b∗n ∈ Rn wie folgt erhält:
P
(b∗j )T bi
∗
b∗1 := b1 und rekursiv für i = 2, ..., n: b∗i := bi − i−1
j=1 µi,j bj mit µi,j := kb∗ k2 .
j
Zu zeigen:
b∗i
∈ span(b1 , . . . , bi−1
)⊥
und bi −
b∗i
∈ span(b1 , ..., bi ).
Aufgabe 12.3. Zeige mit den Bezeichnungen von Aufgabe 2:
a) [b1 , ..., bn ] = [b∗1 , ..., b∗n ] [µi,j ]T .
b) µi,j = 0 für i < j und µi,i = 1 für i = 1, . . . , n.
c) b∗i ⊥ b∗j für i 6= j.
Aufgabe 12.4. Sei σ ∈ Sn und τ eine Nachbartransposition. Zeige, dass für die
Anzahl der Fehlstände f (τ σ) = f (σ) ± 1 gilt.
Aufgabe 12.5. Zeige, dass für σ ∈ Sn folgende Aussagen äquivalent sind:
a) f (σ) ist gerade.
b) Sind τ1 , τ2 , . . . , τn Nachbartranspositionen mit σ = τ1 τ2 · · · τn , so ist n gerade.
c) σ ist das Produkt einer geraden Anzahl von Nachbartranspositionen.
Hinweis: Benutze Aufgabe 12.4. Zusatz (2 Punkte): Zeige, dass die Äquivalenzen auch
gelten, wenn man in b) beliebige Transpositionen τ1 , ..., τn zuläßt.
227
Aufgabe 13.1. Sei Z = {x ∈ Rn | Ax ≥ b } mit A ∈ Rm×n und b ∈ Rm . Zeige: Zu
y ∈ Z sind folgende Aussagen äquivalent:
a) A enthält n linear unabhängige Zeilen Ai mit Ai y = bi ,
b) y ist eine Ecke von Z.
Aufgabe 13.2. Beweise Satz 12.16 und Satz 12.17 aus der Vorlesung:
a) Jedes Polyeder P ⊂ Rn ist disjunkte Vereinigung von endlich vielen Simplizes.
b) Jedes Polyeder im Rn ist Durchschnitt von endlich vielen Halbräumen.
Aufgabe 13.3. Zeige:
a) Für beliebige Mengen C1 , . . . , Cm ⊆ Rn gilt:
!
!
m
m
[
[
kon
kon(Ci ) = kon
Ci .
i=1
i=1
Rn
b) Sei K ⊆
konvexe Hülle endlich vieler Punkte. Jeder Punkt p ∈ K ist
Konvexkombination von n + 1 der gegebenen Punkte.
aff
Aufgabe 14.1. Sei K = K 0 mit der affinen Bijektion φ. Zeige:
a) K konvex
⇒
K 0 konvex.
b) φ(E(K)) = E(φ(K)).
Aufgabe 14.2. Transformiere das allgemeine LP-Problem mit x, c, ai , ai ∈ Rn
min cT x
mit
aTi x = bi für i ∈ M
ai x ≥ bi für i ∈ M
xj ≥ 0 für j ∈ N
(xj mit j ∈ N sind freie Variable) in die kanonische Form. Zeige, dass die Zulässigkeitsbereiche bei der Transformation affin isomorph bleiben. Gib entsprechende affine
Bijektionen an.
Aufgabe 14.3. Transformiere das allgemeine LP-Problem von Aufgabe 14.2 in die
Standardform. Zeige, dass die Zulässigkeitsbereiche bei der Transformation affin isomorph bleiben. Gib entsprechende affine Bijektionen an.
Aufgabe 15.1. Sei M ⊂ Rn ,M 6= ∅. Zeige:
k ∈ N, λi ∈ R,
Pk
Pk
a) aff(M ) =
.
i=1 λi pi pi ∈ M,
i=1 λi = 1
o
nP
k
b) cone(M ) =
λ
p
k
∈
N,
λ
∈
R
,
p
∈
M
.
i
i
i
≥0
i
i=1
228
B. Übungsaufgaben
Aufgabe 15.2. Sei P ⊆ Rn ein Polyhedron mit E(P ) 6= ∅ und f : Rn → R linear mit
inf x∈P f (x) > −∞. Zeige: p ∈ E(P ) ist Minimalstelle von f gdw. es keine Nachbarecke
q zu p gibt mit f (q) < f (p) (q ist Nachbarecke zu p, wenn [p, q] Kante von P ist).
Beachte auch Sonderfälle, wie E(P ) = {p}.
Aufgabe 15.3. Zeige:
a) Sind Ci für i ∈ I endlich viele, endlich erzeugte Kegel, dann auch
T
Ci .
i∈I
b) Zu A ∈ Rm×n ist {x ∈ Rn | Ax ≤ 0 } ein endlich erzeugter Kegel.
Aufgabe 16.1. Zeige: Jedes Polyhedron P = {x ∈ Rn | Ax ≤ b } mit A ∈ Rm×n und
b ∈ Rm ist Summe P = Q + C eines Polyeders Q und eines polyhedralen Kegels C.
Hinweis: Zeige, es gibt endlich viele λxii ∈ Rn+1 , λi ∈ {0, 1} für i = 1, . . . , k, mit
a) λx ∈ Rn+1 Ax − λb ≤ 0, λ ≥ 0 = cone λx11 , . . . , λxkk
b) P = kon(xi | λi = 1) + cone(xi | λi = 0).
Aufgabe 16.2. Sei Q ⊆ Rn ein Polyeder und C ⊆ Rn ein endlich erzeugter Kegel.
Zeige: Q+C ist Polyhedron. Hinweis: Sei Q := kon(x1 , ..., xk ), C :=cone(y1 , .. . , ym ).
Zeige und benutze: x0 ∈ Q + C gdw. x10 ∈ cone x11 , . . . , x1k , y01 , . . . , y0m .
Aufgabe 16.3. Beweise den Dualitätssatz für die Standardform (Korollar 13.20)
LPstd
minimiere cT x,
so dass Ax = b
x ≥0
und das zugehörige duale Programm:
LP* std
maximiere bT y,
so dass AT y + s = c
s ≥ 0.
Aufgabe 17.1. Beweise Satz 13.14 aus der Vorlesung. Für den Zulässigkeitsbereich
Zstd gilt:
a) Zwei Ecken p, p0 ∈ E(Zstd ), p 6= p0 , sind genau dann benachbart, d.h. [p, p0 ] ist
eine Kante von Zstd , wenn zulässige, benachbarte Basis-Nichtbasis-Partitionen
(B, N ), (B 0 , N 0 ) mit p = Φ(B, N ) und p0 = Φ(B 0 , N 0 ) existieren.
b) Falls für zwei zulässige, benachbarte Basis-Nichtbasis-Partitionen (B, N ) und
(B 0 , N 0 ) die Basislösungen Φ(B, N ) und Φ(B 0 , N 0 ) nicht benachbart sind, gilt
Φ(B, N ) = Φ(B 0 , N 0 ) und die Ecke ist degeneriert.
Aufgabe 17.2. Löse folgendes lineares Programm per Hand mit Hilfe des SimplexTableaus: Minimiere −x1 − 2x2 , so dass
−2x1 + x2
−x1 + x2
x1
x1 , x2
≤ 2
≤ 3
≤ 3
≥ 0.
229
Zeichne den Lösungspolyhedron und markiere die jeweils zum Simplex-Tableau gehörende Basislösung bzw. Ecke.
Aufgabe 17.3. Beweise folgende Variante des Farkas Lemmas (Korollar 12.44). Für
A ∈ Rm×n , b ∈ Rn sind folgende Aussagen äquivalent:
a) ∃x : Ax ≤ b.
b) ∀y ≥ 0 mit y T A = 0 gilt y T b ≥ 0.
Hinweis: Wende Variante I von Farkas’ Lemma (Korollar 12.43 aud Seite 149) an
auf A0 := (Im , A, −A).
Aufgabe 18.1. Zeige das Trennungslemma für Kegel: Zu a1 , . . . , am , b ∈ Rn mit
rang(a1 , . . . , am , b) = t sind folgende Aussagen äquivalent:
a) b 6∈ KH(a1 , . . . , am ),
b) Es gibt ein c ∈ Rn mit cT b < 0, cT a1 ≥ 0, . . . , cT am ≥ 0 und cT ai = 0 für
t − 1 linear unabhängige ai .
Aufgabe 18.2. Ein Kegel mit Spitze ist ein Kegel mit Ecke 0 und Dimension ≥ 1.
Sei fi die Anzahl der Seiten der Dimension i. Zeige:
(
d
X
1 für Polyeder und Kegel ohne Spitze der Dimension ≤ d
(−1)i fi =
0 für Kegel mit Spitze der Dimension ≤ d.
i=0
Benutze die eulersche Polyederformel für beliebige Polyeder.
P
Aufgabe 18.3. Beweise die eulersche Polyederformel di=0 (−1)i fi = 1 für beliebige
d-Polyeder durch Induktion über die Anzahl # E(P ) der Ecken mit Verankerung bei
# E(P ) = 1. Hinweis: Seien e1 , e2 benachbarte Ecken und das Polyeder P 0 entstehe
P
aus P durch Verschmelzen von e1 , e2 . Zeige: di=0 (−1)i (fi − fi0 ) = 0.
Aufgabe 19.1. Sei Cn der C-Vektorraum mit dem kanonischen Skalarprodukt h·, ·i.
Beweise die Cauchy-Schwarz’sche Ungleichung:
| hv, wi | ≤ kvk · kwk
Reduziere auf den Fall v, w ∈ C2 mit v ∈ C(1, 0)T .
Aufgabe 19.2. Sei C([0, 2π], R) der R-Vektorraum der 2π-periodischen, stetigen Funktionen,
√
B := { 21 2} ∪ {cos kx | k ∈ Z \ {0} } ∪ {sin kx | k ∈ Z \ {0} }
R 2π
und hf, gi := π1 0 f (x)g(x)dx. Zeige:
a) B ist eine Orthonormalbasis.
n
√
P
b) Für f (x) = a20 2 +
(ak cos kx + bk sin kx) gilt ak = hf, cos kxi und bk =
k=1
hf, sin kxi. Die ak und bk heißen Fourierkoeffizienten von f .
230
B. Übungsaufgaben
Aufgabe 19.3. Sei f ∈ C([0, 2π], R) mit Fourierkoeffizienten ak , bk wie in Aufgabe
19.2. Zeige die Bessel’sche Ungleichung:
∞
kf k2 ≥
a20 X 2
+
(ak + b2k ).
2
k=1
Aufgabe 20.1. Zeige das Determinanten-Multiplikation-Theorem (Fakt 14.23) für
den Fall, dass
A = [ei1 , . . . , ein ]>
mit 1 ≤ i1 , . . . , in ≤ m.
Dabei sei ej ∈ Km der j-te Einheitsvektor. Hinweis: [Fischer97, 3.3.7].
Aufgabe 20.2. Sei A ∈ O2 (R) eine orthogonale Matrix. Zeige, dass
cos α − sin α
cos α sin α
A=
oder
A=
sin α cos α
sin α − cos α
für genau ein α ∈ [0, 2π[ und genau einen der beiden Fälle. Interpretiere A im ersten
Fall als Drehung und im zweiten Fall als Spiegelung an einer Geraden.
Aufgabe 20.3. Sei A = (In , a) ∈ Kn×(n×1) mit a ∈ Kn . Zeige det AAT = 1 + aT a.
Beweise auch das Determinanten-Multiplikations-Theorem für diesen Spezialfall.
Aufgabe 21.1. Sei K ein Körper der Charakteristik ungleich 2, d.h. 1 + 1 6= 0. Sei
A ∈ Mn,n (K) symmetrisch mit A 6= 0. Zeige: Es gibt ein T ∈ Mn,n (K) mit det T 6= 0,
so dass für A0 = T T AT gilt a011 6= 0. Vorschlag:
(1) Falls a1,1 = 0, vertausche die Zeilen/Spalten von A, so dass a1,2 = a2,1 6= 0.
(2) Löse das Problem für A0 = (ai,j )1≤i,j≤2 .
Aufgabe 21.2. Sei

0
0
A=
1
0
0
1
1
2
1
1
0
0

0
2
 ∈ Z4×4 .
3
0
2
Konstruiere T ∈ M4,4 (Z3 ) mit T T AT = D Diagonalmatrix.
Aufgabe 21.3 (6 Punkte). Beweise Satz 14.38 auf Seite 185. Zeige: Zu A ∈ On (R)
gibt es S ∈ On (R), so dass S T AS Diagonalkastenmatrix ist mit Kästen ±1 ∈ R1×1 ,
cos α − sin α
cos α sin α
,
∈ R2×2 .
sin α cos α
sin α − cos α
Hinweis: Als Nullstellen von χA kommen in Frage: ±1 und Paare konjugiert komplexer Zahlen λ, λ mit |λ| = 1. Sind z, z ∈ Cn Eigenvektoren zu λ, λ mit z = x + iy,
z = x − iy, dann ist hx, yi = 0 und x, y 6= 0. Siehe [Fischer97, 5.5.6].
231
Aufgabe 22.1. Sei A ∈ Mn,n (C) hermitesch. Zeige: A ist positiv definit gdw. alle Hauptminoren von A positiv sind. Die Hauptminoren von A = (ai,j )i≤i,j≤n sind
det(ai,j )1≤i,j≤m für m = 1, . . . , n. Hinweis: Wie verändern sich die Hauptminoren bei
der Hauptachsentransformation von Satz 14.24?
Aufgabe 22.2. Zeige für A ∈ Mn,n (C):
P
P
a) χA = ni=0 ci λi gdw. χA = ni=0 ci λi .
b) Ist A hermitesch, dann ist χA ∈ R[λ].
Aufgabe 22.3. A ∈ Cn×n heißt anti-hermitesch, wenn AT = −A. Zeige:
a) Ist A anti-hermitesch, dann auch T T AT .
b) Ist A anti-hermitesch, dann gibt es ein T ∈ GLn (C), so dass in T T AT
höchstens zwei Nebendiagonalen ungleich null sind.
[AC78]
D. Avis und V. Chvátal: Notes on Bland’s Pivoting Rule, Mathematical Programming Study, Band 8, Seiten 23–34, 1978.
[Beu98]
A. Beutelspacher: Lineare Algebra, Vieweg, Braunschweig/Wiesbaden, dritte Auflage, 1998.
[Bland77]
R.G. Bland: New finite Pivoting Rules for the Simplex Method, Mathematics Operation Research, Band 2, Seiten 103–107,1977.
[Cassels71]
J.W.S. Cassels: An Introduction to the Geometry of Numbers, Springer-Verlag, Berlin/Heidelberg, 1971.
[CS93]
J.H. Conway und N.J.A. Sloane: Sphere Packings, Lattices and Groups, Springer,
New York, zweite Auflage, 1993.
[CJLOSS92]
M.J. Coster, A. Joux, B.A. LaMacchina, A.M. Odlyzko, C.P. Schnorr und
J. Stern: An improved low-density Subset Sum Algorithm, Computational Complexity,
Band 2, Seiten 111–128, 1982.
[Dantzig51]
G.B. Dantzig: Maximization of a Linear Function of Variables Subject to Linear
Inequalities, in T. Koopmans (Hrsg): Activity Analysis of Production and Allocation,
Seiten 339–347, John-Wiley & Sons, New York, 1951.
[Dantzig66]
G.B. Dantzig: Lineare Programmierung und Erweiterungen, Springer-Verlag, Berlin/Heidelberg, 1966.
[Dantzig83]
G.B. Dantzig: Reminiscences About the Origins of Linear Programming, in A. Bachem, M. Grötschel und B. Korte (Hrsg.): Mathematical Programming: The State of
of Art, Springer-Verlag, Berlin/Heidelberg, 1983.
[Fischer92]
G. Fischer: Analytische Geometrie, Vieweg Studium — Grundkurs Mathematik,
Vieweg Verlag, Wiesbaden, 1992.
[Fischer97]
G. Fischer: Lineare Algebra, Vieweg, Braunschweig/Wiesbaden, 11.te Auflage, 1997.
[Forster92]
O. Forster: Analysis 1, Vieweg, Braunschweig/Wiesbaden, vierte Auflage, 1992.
[FS78]
G. Fischer und R. Sacher: Einführung in die Algebra, Teubner, Stuttgart, zweite
Auflage, 1978.
[G86]
F.R. Gantmacher: Matrizentheorie, Springer, Berlin/Heidelberg, , 1986.
[GL96]
G. H. Golub und C. F. van Loan: Matrix Computations, John Hopkins University
Press, Baltimore und London, dritte Auflage, 1996.
[Jänrich96]
K. Jänich: Lineare Algebra, Springer, Berlin/Heidelberg, sechste Auflage, 1996.
[Karloff91]
H. Karloff: Linear Programming, Progress in Theoretical Computer Science,
Birkhäuser, Boston, 1991.
233
234
[Ka84]
N.K. Karmakar: A new Polynomial-Time Algorithm for Linear Programming, Combinatorica, Band 4, Seiten 373-395, 1984.
[Kh79]
L.G. Khachiyan: A Polynomial-Time Algorithm for Linear Programming, Doklady
Akademiia Nauk USSR, Band 244, Seiten 1093–1096, 1979. Englische Übersetzung in
Soviet Mathematics Doklady, Band 20, Seiten 191–194, 1980.
[KM72]
V. Klee und G.J. Minty: How good is the Simplex Algorithms?, in O. Sisha (Hrsg.):
Inequalities, Band III, Academic Press, New York, Seiten 159–175, 1972.
[Koe83]
M. Koecher: Lineare
lin/Heidelberg, 1983.
[LaOd85]
J.C. Lagarias und A.M. Odlyzko : Solving low-density Subset Sum Problems, Journal of ACM, Band 32, Nr. 1, Seiten 229–246, 1985.
[LLL82]
A.K. Lenstra, H.W. Lenstra und L. Lovász: Factoring Polynomials with Rational
Coefficients, Springer Mathematische Annalen, Band 261, Seiten 515–534, 1982.
[Lint98]
J.H. van Lint: Introduction to Coding Theory, Springer, New York, dritte Auflage,
1998.
[MS86]
F. J. MacWilliams und N.J.A. Sloane: The Theory of Error Correcting Codes.
North-Holland, Amsterdam, fünfte Auflage, 1986.
[PS82]
C.H. Papadimitriou und K. Steiglitz: Combinatorical Optimization: Algorithms
and Complexity, Prentice-Hall, Eaglewood Cliffs, New Jersey, 1982.
[S86]
A. Schrijver: Theory of Linear and Integer Programming, Wiley-Interscience Series
in discrete Mathematics and Optimization, John Wiley & Son, New York, 1986.
[V97]
R.J. Vanderbei: Linear Programming: Foundations and Extensions, Kluwer Academic
Press, Bosten, 1997.
[W96]
J. Wolfart:
Einführung in die Zahlentheorie und Algebra. Vieweg, Braunschweig/Wiesbaden, 1996.
Algebra
und
analytische
Geometrie,
Springer,
Ber-
Index
Abbildung
Homomorphismus, 23
lineare, 63
Abel, Niels Hendrik, 21
Abstand, 118
Adjunkte, 101
affin
-er Halbraum, 135
-e Hülle, 135
isomorph, 140
unabhängig, 135
-er Untervektorraum, 31
Dimension, 135
Gerade, 31
parallel, 31
alternierende Gruppe, 97
Annulator, 175
Äquivalenzrelation, 28
Codes, 79
Matrizen, 105
Assoziativität, 13
Ausartungsraum, siehe Nullraum
Austauschsatz von Steinitz, 38
Automorphismus, 24
komplexe Zahlen, 25
Basis, 34
Darstellung, 35
-ergänzungssatz, 38
Gitter-, 76, 201
Isomorphismus, 35
-lösung, 157
benachbarte Ecke, 161
-matrix, 77, 202
Orthogonal-, 125
Orthonormal-, 125
Standard-, 34
-variable, 157
-wechsel, 68
Basis-Nichtbasis-Partition, 157
zulässige, 157
Begleitmatrix, 114
benachbarte Ecke, 161
Bessel’sche Ungleichung, 230
Betragsnorm, 117
Big-M-Simplex-Algorithmus, 163
Bild, 64
Bilinearform, 176
degeneriert, 183
indefinit, 183
negativ definit, 183
Nullraum, 183
positiv definit, 176
Rang, 177
Zerlegung Vektorraum, 190
Binomialkoeffizient, 151
BNP, siehe Basis-Nichtbasis-Partition
C, siehe komplexe Zahlen
Cardano, Geronimo, 16
Cauchy-Schwarz-Ungleichung, 118, 123, 179
Charakteristik, 191
charakteristisches Polynom, 110, 111
Chinesischer Restsatz, 88
Cone, siehe Kegel
Cosinussatz, 125
Cramer’sche Regel, 102
Cycling, 162
Dantzig, Georg, 154
Darstellungsmatrix, 68
Transformationsformel, 68, 177
Definitheit, positive, 117, 176, 177
Degeneration, 158
Bilinearform, 183
Simplex-Tableau, 168
Descartes, René, 4
Determinante, 95
Berechnung, 95
Diagonalmatrix, 95
Eindeutigkeit, 94
236
Entwicklungssatz von Laplace, 100
-nfunktion, 92
Gitter-, 202
Leibnizformel, 97
Multilinearitat, 93
Multiplikationstheorem, 180
Multiplikativität, 103
transponierte Matrix, 99
diagonalisierbare Matrix, 106
Dimension
-sformel
lineare Abbildung, 64
-ssatz, 39
Vektorraum, 37
Diophantische Approximation, 207
direkte Summe
externe, 85
innere, 85
direktes Produkt, 85, 88
diskret, 201
Distanz, 118
Division mit Rest, 26, 48
Divisionsring, siehe Schiefkörper
Dreiecksmatrix, 11
Dreiecksungleichung, 117
dual
-e Basis, 174
-er Code, 78
-er Kegel, 146
-es Programm, 169
-er Vektorraum, 173, 174
Dualität
schwache, 170
starke, 170, 171
Vektorraum, 173
Ecke
benachbarte, 161
degeneriert, 158
Polyhedron, 139
Eigenraum, 108
Eigenvektor, 106
Eigenwert, 106
Vielfachheit, 112
Eindeutigkeit
Einselement, 14, 22
Inverses, 14, 22
Nullelement, 14
Einheit, siehe Einselement
Einheitengruppe, 22
Einheits
-matrix, 10
-vektor, 33
Einselement, 13
Einsetzungshomomorphismus, 47
Elementarmatrix, 10
Index
Eliminationsverfahren, siehe Gauß-Algo.
Endomorphismus, 24
Hauptachsentheorem, 186
orthogonaler, 184
selbstadjungiert, 186
unitärer, 184
Epimorphismus, 24
Erzeugendensystem, 33
minimales, 34
erzeugendes Element, siehe Generator
Erzeugnis, siehe lineare Hülle
Euklid, 18
euklidische
Länge, 89
Norm, 117
-r Vektorraum, 122, 179
Euler, Leonhard, 17
Extremalpunkt, 136
Faktorring, 26, 50
Faltung, 44
Fehlstand, 96
Fläche
Polyhedron, 139
Fourierkoeffizient, 229
Fq , 16
freie Variable, 153
Frobenius-Homomorphismus, 192
Frobenius-Norm, 119
Fundamentalsatz der Algebra, 52
Funktion
konkave, 143
konvexe, 142
Galois, Evariste, 16
Galoisfeld, 16
Gauß, Carl Friedrich, 4, 18, 52
Gauß-Algorithmus, 3
Gauß’sche Zahlenebene, 17
Generator
Gruppe, 198
-matrix, 77
Generatormatrix
kanonische, 79
Gerade, 31
Halb-, 141
Gitter, 76, 201
-basis, 76, 201
Basismatrix, 202
-determinante, 202
Grundmasche, 203
Rang, 201
gitterartige Kugelpackung, 76
GLn , 22, 128
Grad
Polynom, 42
Index
Gram-Matrix, 202
Gram-Schmidt-Koeffizient, 126
Grundmasche, 203
Gruppe, 21
abelsche, 21
alternierende, 97
Generator, 198
Homomorphismus, 23
kommutative, 21
Ordnung eines Elementes, 198
orthogonale Matrizen, 128
primitives Element, 198
symmetrische, 96
Unter-, 23
zyklisch, 198
Halbgerade, 141
Halbgruppe, 21
Homomorphismus, 24
Halbraum, 135
Hamilton, William Rowan, 20
Hamming
-Code, 80
-Distanz, 72
-Gewicht, 72
-Radius, 73
Hamming, Richard W., 72, 80
Hauptachsentrandformation
symmetrische Matrizen, 181
Hauptminor, 231
hermitesch
-Form
positiv definit, 178
-e Form, 178
-e Matrix, 178
hermitesche
anti-, 231
Hölder’sche Ungleichung, 118
Homogenität
positive, 117
Homomorphieprinzip, 24
Homomorphismus, 23
Bild, 24
Frobenius-, 192
Gruppen-, 23
Halbgruppen-, 24
Kern, 24
Körper, 24
Monoid-, 24
Ring-, 24
Hyperebene, 31
imaginäre Einheit, 17
Imaginärteil, 17
indefinit
237
Bilinearform, 183
Injektion, 86
Integritätsbereich, siehe Intergritätsring
Intergritätsring, 19
Interpolationspolynom, 55
Lagrange’sche Form, 56
Interpolationsproblem, 55
Inverses, 13
irreduzibles Polynom, 195
Isometrie, siehe orthog. Endomorhismus
isometrische Abbildung, 127, 184
isomorph, 25
affin, 140
Isomorphismus, 24
affiner, 140
Iwasawa-Zerlegung, 129
Jordan-Kästchen, 106, 113
Jordan-Normalform, 116
kanonische Form, 154
duales Programm, 169
Kante
Polyhedron, 139
Kantorvicz, L.V., 154
kartesisch
-e Koordinaten, 4
-es Produkt, 85
Kästchensatz, 104
Kegel, 145
dualer, 146
endlich erzeugter, 146
Kepler, Johannes, 77
Kern, 64
Kodierungstheorie, 71
Koeffizient, 3
Kommutativität, 13
komplementäre Matrix, 101
komplementäre Slackness, 171
komplexe Konjugation, 25
komplexe Zahlen, 16
imäginare Einheit, 17
Imaginärteil, 17
Polarkoordinaten, 17
Realteil, 17
komplexer Vektorraum, 178
Skalarprodukt, 178
Komposition, 22
kongruent, 28
konjugiert komplexe Zahl, 25
konkave Funktion, 143
Kontrollmatrix, siehe PCH-Matrix
Konvergenz
quadratische, 121
konvexe
Funktion, 142
238
Hülle, 133
Menge, 133
Extremalpunkt, 136
Konvexkombination, 133
Konvolution, 44
Koopmans, T.C., 154
Koordinaten
-funktion, 68
Koordinatenvektor, 35
Körper, 13, 22
angeordnet, 15
Charakteristik, 191
endlicher, 16
-Homomorphismus, 24
komplexe Zahlen, 16
Prim-, 193
Unter-, 19
Zerfällungs-, 196
Kostenfunktion, siehe Zielfunktion
Kreisen, 162
Kronecker-Symbol, 10
Kugel, 73, 119
Lagarias, J.C., 209
Lagrange-Koeffizient, 57
Laplace’scher Entwicklungssatz, 100
Laplace, Pierre Simon, 100
Leibniz, Gottfried Wilhelm, 97
LGS, siehe lineares Gleichungssystem
Dimension homogener, 62
linear abhängig, 33
linear unabhängig, 33
Basiswechsel, 68
charakteristisches Polynom, 111
Dimensionsformel, 64
Eigenvektor, 106
Eigenwert, 106
isometrische, 127, 184
orthogonale, 127, 184
Projektion, 84
Rang, 65
Vektorraum, 63
lineare Gleichung, 3
lineare Hülle, 32
linearer Code, 71, 72
äquivalenter, 79
Basismatrix, 77
binärer, 72
Dekodierung, 72
dualer Code, 78
t-fehlererkennend, 73
t-fehlerkorrigierend, 73
Generatormatrix, 77
guter, 74
Index
Hamming-Code, 80
Hamming-Distanz, 72
Hamming-Gewicht, 72
Informationsbits, 74
Informationsrate, 74
Korrekturbits, 74
Korrekturrate, 74
Minimalabstand, 72
Minimalgewicht, 73
Paritätscode, 75
PCH-Matrix, 79
Singleton-Schranke, 225
t-perfekter, 76
linearer Raum, siehe Vektorraum
lineares Gleichungssystem
Lösungsmenge, 4
lineares Gleichungssystem, 3
Cramer’sche Regel, 102
Gauß-Algorithmus, 3
homogenes, 8
Treppenform, 5
Vektorraum, 32
lineares Programm
duales, 169
kanonische Form, 154
Optimalitätskriterium, 160
Standardform, 155
widersprüchliches, 155
zulässiges, 155
Linearform, 174
Linearkombination, 32
LosungsmengeLösungsmenge
lineares Gleichungssystem, 4
lineares Programm, 155
Manigfaltigkeit, 175
Matrix, 3
Adjunkte, 101
ähnliche, 105
anti-hermitesch, 231
Äquivalenzrelation, 105, 189
Begleit-, 114
blockdiagonale, 114
charakteristisches Polynom, 110
Determinante, 95
diagonalisierbar, 106
Dreiecks-, 11
Eigenvektor, 106
Eigenwert, 106
Einheits-, 10
Elementar-, 10
erweiterte, 4
Gruppen, 128
hermitesche, 178
invertieren, 38, 95, 101
Index
Iwasawa-Zerlegung, 129
Jordan-Normalform, 116
komplementäre Matrix, 101
kongruente, 189
Minor, 101
-norm, 119
Submultiplikativität, 120
Normalform, 114
orthogonale, 127, 184
Permutations-, 12
positiv definit, 177, 178
Produkt, 9
Rang, 60
Spaltenrang, 59
Spaltenraum, 59
Streichungs-, 100
symmetrische
Hauptachsentransformation, 181
Trägheitsindex, 189
transponierte, 220
Treppenform, 5
unitäre, 184
Vandermonde-Matrix, 56, 101
Zeilenrang, 59
Zeilenraum, 59
Maximum-Likelihood-Dekodierung, 72
Maximumsnorm, 117
Mehrdeutigkeit
Simplex-Tableau, 168
Metrik, 118
Minimal
-abstand, 72
-Distanz-Dekodierung, 72
-gewicht, 73
Minimalestelle
lokale, 142
Minkowski, Hermann, 137
Minor, 101
modulo, 26
Monoid, 21
Homomorphismus, 24
Monom, 41
Monomorphismus, 24
multilineare Funktion, 93
Nachbartransposition, 96
negativ definit
Bilinearform, 183
von Neumann, John, 169
Nichtbasisvariable, 157
Nichtnegativitätsbedingung, 153
Norm, 117
Äquivalenz, 118
Betrags-, 117
Euklidische, 117
Frobenius-, 119
239
Matrix-, 119
Maximums-, 117
Normalform, 114
Jordan-, 116
selbstadjungierter Endomorphismus, 186
Nullelement, 13
Nullpolynom, 41
Nullraum
Bilinearform, 183
Nullstelle, 51
Nullstellenmenge, 175
Nullteiler, 14
Odlyzko, A.M., 209
Orthogonal
-basis, 125
-es Komplement, 125
-raum, 78, 83
-vektoren, 90
orthogonal
-e Abbildung, 127, 184
-er Endomorhismus, 184
-e Gruppe, 128
-es Komplement, 83
-e Matrix, 127, 184
-e Projektion, 84
Orthogonalisierung
Gram-Schmidt-Koeffizient, 126
Schmidt’sches Verfahren, 126
Orthogonalität, 78, 125
Orthonormal
-basis, 125
-system, 125
Packungsdichte, 76
parallel, 31
Parallelepiped, 90
Parallelflach, siehe Parallelepiped
Parallelogrammgleichung, 125
Parallelotop, siehe Parallelepiped
PCH-Matrix, 79
kanonische, 79
Permutation, 95, 96
alternierende Gruppe, 97
Fehlstand, 96
gerade, 97
-smatrix, 12
Nachbartransposition, 96
Signum, 97
symmetrische Gruppe, 96
Transposition, 96
ungerade, 97
Pivot-Regel, 161
Best-Improvement-Regel, 161
Blands, 162
Nonbasic-Gradient-Methode, 161
240
Pivot-Wahl, 161
Pivotelement, 7
Polarkoordinaten, 17
Polyeder
-formel, 150
konvexer, 135
Polygon, 135
Polyhedral, 145
Polyhedron, 135
Dimension, 135
Ecke, 136, 139
Fläche, 139
Kante, 139
Seite, 138
Polynom, 41
Begleitmatrix, 114
charakteristisches, 110
Division mit Rest, 48
Einsetzungshomomorphismus, 47
Faktorring, 50
führender Koeffizient, 42
Gleichheit, 42
Gradformel, 45
-ideal, 175
Interpolations-, 55
irreduzibles, 195
Koeffizientenvektor, 43
konstantes, 42
Lagrange-Koeffizient, 57
Linearfaktor, 51
normiertes, 42, 114
Null-, 41
Nullstelle, 51
Produkt, 44
-Ring, 46
Skalarmultiplikation, 43
Summe, 43
-vektorraum, 44
Wurzel, 51
Zerfall in Linearfaktoren, 52
Polytope, 135
positiv definit
Bilinearform, 176
hermitesche Form, 178
Matrix, 177, 178
Primkörper, 193
Projektion, 84
Prüfmatrix, siehe PCH-Matrix
quadratische Form, 179
Quaternionen-Schiefkörper, 20
Radikalideal, 175
Rang, 60
Bilinearform, 177
Gitter, 201
Index
linearen Abbildung, 65
Realteil, 17
Repräsentant
Restklasse, 26
Rest, 26, 48
Restklasse, 26
Repräsentant, 26
Richtungsraum, 31, 135
Ring, 19, 23
-Homomorphismus, 24
Intergritäts-, 19
kommutativer, 19
mit Eins, 19
nullteilerfrei, 19
Polynom-, 46
Unter-, 20
Rucksack-Problem, 208
Ruffini, 51
Satz
Cayley-Hamilton, 116
Fundamentalsatz der Algebra, 52
Ruffini, 51
Trägheits-, 189
Schattenpreis, 160
Schiefkörper, 20
Quaternionen-, 20
Schlupfvariable, 155
Schmidt-Orthogonalisierungsverfahren, 126
Seite
Polyhedron, 138
selbstadjungierter Endomorphismus, 186
Sesquilinearform, 178
Signum, 97
Simplex, 135
Simplex-Algorithmus
Big-M-, 163
Tableau, 164
Simplex-Tableau
Kurzform, 168
Singleton-Schranke, 225
Skalarprodukt, 122, 176
kanonisches, 122, 178
komplexer Vektorraum, 178
Slack-Variable, 155
Spann, siehe lineare Hülle
Standardform, 155
Streichungsmatrix, 100
Stützebene, 138, 145
Submultiplikativität
Matrixnorm, 120
Subsetsum-Problem, siehe Rucksack-Problem
Sylvester
Trägheitssatz, 189
symmetrische Gruppe, 96
Index
Trägheitsindex, 189
Trägheitssatz, 189
Transformationsformel
Darstellungsmatrizen, 68, 177
transponierte Matrix, 220
Transposition, 96
Trennungslemma, 144
Treppenform, 5
Unbestimmte, 3, 41
Ungleichung
Bessel’sche, 230
Cauchy-Schwarzsche, 118, 123, 179
Dreiecks-, 117
Hölder’sche, 118
unitär
-e Abbildung, 184
-e Endomorhismus, 184
-e Matrix, 184
-er Vektorraum, 179
Unter
-körper, 19
-vektorraum, 31
affiner, 31, 135
Vandermonde-Matrix, 56, 101
Variable
freie, 6
gebundene, 6
Variablen-Splitting, 153
Vektor, 4
Einheitsvektor, 33
Länge, 89
-norm, 117
orthogonal, 125
Spalten-, 4
Zeilen, 4
Vektorraum, 29
Basis, 34
Dimension, 37
dualer, 173
Erzeugendensystem, 33
euklidischer, 122, 179
komplexer, 178
Metrik, 118
Norm, 117
Orthogonalbasis, 125
Orthogonalraum, 78, 83
Orthonormalbasis, 125
Polynom-, 44
Skalarprodukt, 122
unitärer, 179
Unter-, 31
Verbindungsstrecke, 133
Vielfachheit
241
Eigenwert, 112
Nullstelle, 51
Volumen, 91
widersprüchliches lineares Programm, 155
Winkel, 124
wohldefiniert, 27
Zerfällungskörper, 196
Zielfunktion, 153
relative, 159
Zn , 26
zulässiges lineares Programm, 155
Zwei-Phasen-Simplex-Algorithmus, 162
zyklische Gruppe, 198

Lineare Algebra - Goethe

Transcrição

Documentos relacionados

HJ-321-E Schrittzähler Walking style One 2.1 1. 2. 3. 4.

Installationsanleitung Windows 8.x und Windows 10

Einladung PPP AK 19 03 2013 mit Kostenbeitrag - PPP

Konfiguration des Internetzugangs über Modem oder

Katalog

BWL-Bau Newsletter Nr.2 - Bauhaus

ISDN mit OpenBSD 2.8

DSL-2543B - D-Link

8. Es waren zwei Königskinder

Layer-3 VPN-Basistechnologie