Lineare Algebra - Goethe

Transcrição

Lineare Algebra - Goethe
Skript
Lineare Algebra
Prof. Dr. C.P. Schnorr
http://www.mi.informatik.uni-frankfurt.de
Johann-Wolfgang-Goethe Universität
Fachbereiche Mathematik und Informatik
Frankfurt am Main
21. Juli 2000
Das vorliegende Skript ist eine Ausarbeitung der Vorlesungen Lineare Algebra I“ und
”
Lineare Algebra II“ aus dem Wintersemester 1998/99 und Sommersemester 1999 an
”
der Johann-Wolfgang-Goethe Universität, Frankfurt am Main.
In der vorliegenen Version sind Fehler der Auflage vom 4.Jan.2000 behoben (dank der
detailierten Fehlerliste von Thomas Rupp). Für Hinweise auf weitere Fehler sind wir
weiterhin dankbar.
Von Roger Fischlin, Marc Fischlin und Matthias Rupp 1999 überarbeitet und in
LATEX 2ε gesetzt.
Inhaltsverzeichnis
Teil 1. Lineare Algebra I
Kapitel 1. Lineare Gleichungssysteme
3
§1.
Gauß-Algorithmus
3
§2.
Gauß-Algorithmus und Matrizen
9
Kapitel 2. Körper, Ringe und Gruppen
13
§1. Körper
13
§2. Ringe und Schiefkörper
19
§3. Gruppen
21
§4. Homomorphismen
23
§5. Vom Ring Z abgeleitete Körper
26
Kapitel 3. Vektorräume
29
§1. Vektorraum und Untervektorraum
29
§2. Lineare Unabhängigkeit, Basen und Dimension
32
Kapitel 4. Polynome
41
§1.
Vektorraum und Ring der Polynome
41
§2.
Division mit Rest
48
§3.
Nullstellen
51
§4.
Interpolation
55
Kapitel 5. Der Rang von Matrizen
59
§1.
Zeilenrang und Spaltenrang
59
§2.
Rang und lineare Gleichungssysteme
61
Kapitel 6. Lineare Abbildungen
§1.
Eigenschaften
63
63
iii
iv
Inhaltsverzeichnis
§2.
Darstellende Matrix
Kapitel 7. Lineare Codes
65
71
§1.
Grundbegriffe
71
§2.
Gitter und Kugelpackungen
76
§3.
Generator- und PCH-Matrix
77
§4.
Hamming-Codes
80
Kapitel 8. Direkte Summe
83
§1.
Orthogonales Komplement
83
§2.
Direkte Summe
85
Kapitel 9. Volumina und Determinanten
89
§1.
Volumina
89
§2.
Determinanten
92
§3.
Permutationen und Leibniz’sche Determinantenformel
95
§4.
Eigenschaften
99
Kapitel 10. Normalformen und Eigenwerte
105
§1.
Eigenwerte und Eigenvektoren
105
§2.
Charakteristisches Polynom
110
§3.
Normalformen
114
Kapitel 11. Euklidische Vektorräume
117
§1.
Vektornorm
117
§2.
Matrixnorm
119
§3.
Skalarprodukt
122
§4.
Orthogonale Abbildungen und Matrizen
127
Teil 2. Lineare Algebra II
Kapitel 12. Konvexe Geometrie
133
§1.
Konvexe Mengen
133
§2.
Funktionen über konvexen Mengen
142
§3.
Kegel und Farkas’ Lemma
145
§4.
Eulers Polyederformel
150
Kapitel 13. Lineare Programmierung
153
§1.
Einleitung
153
§2.
Ecken und Basislösungen
154
§3.
Simplex-Algorithmus
159
§4.
Simplex-Tableau
164
§5.
Dualität
169
Inhaltsverzeichnis
v
Kapitel 14. Reelle und komplexe Vektorräume
§1. Dualität linearer Räume
§2. Bilineare, Sesquilineare und quadratische Formen
§3. Hauptachsentransformation symmetrischer Matrizen
§4. Unitäre Endomorphismen und Matrizen
§5. Normalform selbstadjungierter Endomorphismen
173
173
176
181
184
186
Kapitel 15. Endliche Körper
§1. Charakteristik
§2. Primkörper
§3. Konstruktion endlicher Körper
§4. Struktur der multiplikativen Gruppe endlicher Körper
191
191
193
194
198
Kapitel 16. Gittertheorie
§1. Gitter
§2. Gitterreduktion
201
201
205
Anhang A. Grundbegriffe
§1. Notationen
§2. Logik
§3. Beweistechniken
§4. Mengen, Relationen und Funktionen
211
211
211
214
216
Anhang B. Übungsaufgaben
§1. Übungsblatt 1
§2. Übungsblatt 2
§3. Übungsblatt 3
§4. Übungsblatt 4
§5. Übungsblatt 5
§6. Übungsblatt 6
§7. Übungsblatt 7
§8. Übungsblatt 8
§9. Übungsblatt 9
§10. Übungsblatt 10
§11. Übungsblatt 11
§12. Übungsblatt 12
§13. Übungsblatt 13
§14. Übungsblatt 14
§15. Übungsblatt 15
§16. Übungsblatt 16
§17. Übungsblatt 17
219
219
219
220
221
222
222
223
223
224
225
225
226
227
227
227
228
228
vi
Inhaltsverzeichnis
§18. Übungsblatt 18
229
§19. Übungsblatt 19
229
§20. Übungsblatt 20
230
§21. Übungsblatt 21
230
§22. Übungsblatt 22
231
Literaturverzeichnis
233
Index
235
Teil 1
Lineare Algebra I
Kapitel 1
Lineare
Gleichungssysteme
Zum Lösen linearer Gleichungssysteme lernen wir mit dem Gauß-Verfahren einen
wichtigen Algorithmus der linearen Algebra kennen.
1. Gauß-Algorithmus
Wir betrachten lineare Gleichungen der Form
a1 x1 + a2 x2 + . . . + an xn = b
über den reellen Zahlen, d.h. mit a1 , . . . , an , b ∈ R. Dabei heißen a1 , . . . , an Koeffizienten und x1 , . . . , xn Unbestimmte oder Variable. Wir suchen reelle Zahlen, die
die Gleichung erfüllen, setzt man sie für x1 , . . . , xn ein. Beim Übergang zu mehreren
Gleichungen ergibt sich ein lineares Gleichungssystem (LGS) aus m Gleichungen in
n Unbestimmten:
a11 x1 + a12 x2 + · · · + a1n xn = b1
a21 x1 + a22 x2 + · · · + a2n xn = b2
..
..
..
..
.
.
.
.
am1 x1 + am2 x2 + · · · + amn xn = bm .
(1)
Um diese Darstellung eines linearen Gleichungssystems
Pn zu vereinfachen, kann man
die i-te Gleichungen mittels Summenzeichen als
j=1 aij xj = bi schreiben. Statt
jede der m Gleichungen einzeln anzugeben, verwendet man zur Notation von linearen
Gleichungssystemen in der linearen Algebra üblicherweise Matrizen und Vektoren:
Def inition 1.1 (Matrix). Ein rechteckiges Schema A aus m Zeilen und n Spalten
mit Einträgen aij ∈ R heißt m × n-Matrix über R:


a11 · · · a1n

..  .
A = (aij ) 1≤i≤m =  ...
. 
1≤j≤n
am1 · · · amn
3
4
1. Lineare Gleichungssysteme
Im Fall m = n heißt A quadratische Matrix. Die Menge aller m × n Matrizen über R
bezeichnen wir mit Mm,n (R) oder kurz Rm×n .
Einspaltige Matrizen b ∈ Mm,1 (R) heißen Spaltenvektoren, einzeilige Matrizen
b ∈ M1,m (R) Zeilenvektoren. Wenn aus dem Kontext hervorgeht, ob es ein Spaltenoder Zeilenvektor ist, nennen wir b kurz Vektor. Die Menge Mn,1 (R) = Rn×1 der
reellwertigen Vektoren der Länge n bezeichnet man kurz als Rn , den Raum der nTupel reeller Zahlen. R3 ist zum Beispiel der uns umgebende Raum. In der Geometrie
sprechen wir auch von kartesischen Koordinaten.1
Def inition 1.2 (Matrix-Vektor-Produkt). Sei A ∈ Mm,n (R) eine m × n-Matrix und
x ∈ Rn ein Spaltenvektor. Das Matrix-Vektor-Produkt ist

P
n
a x
 j=1 1j j 


m

Ax = 
 n ···  ∈ R ,
P

amj xj
j=1
der i-te Koeffizient von Ax ist das Produkt“
”
x.
Pn
j=1 aij xj
der i-ten Zeile von A mit
Das lineare Gleichungssystem (1) schreiben wir in Matrixform als

   
a11 · · · a1n
x1
b1
 ..
..   ..  =  .. 
 .
.  .   . 
am1 · · ·
amn
xn
(2)
bm
oder kurz Ax = b für gegebene A, b und dem gesuchten x. Dabei ist x ein Unbestimmtenvektor, dessen Koordinaten x1 , . . . , xn noch zu ermitteln sind. Mit
Lös(A, b) := {x ∈ Rn | Ax = b }
bezeichnen wir die Lösungsmenge des linearen Gleichungssystems Ax = b. Man fasst
die Koeffizientenmatrix A und den Vektor b zur erweiterten Matrix (A, b)


a11 · · · a1n b1

..
..  ∈ M
(A, b) :=  ...
m,n+1 (R)
.
. 
am1 · · ·
amn bm
zusammen.
Unser Ziel ist ein schnelles, mechanisches Verfahren zum Lösen von linearen Gleichungssystemen. Die Standardmethode ist ein auf C.F. Gauß2 zurückgehender Algorithmus, der auch die Basis zahlreicher Beweise der Vorlesung bildet. Wir überführen
1Zu Ehren von René Descartes, 1596–1650, einem Wegbereiter der Mathematik der Neuzeit.
Er gilt als Begründer der systematischen analytischen Geometrie. Seine Schrift Géométrie“ gehörte
”
zu den Grundlagen, auf denen Newton und Leibniz später aufbauten.
2 Carl Friedrich Gauß, 1777–1855, war der bedeutendste Mathematiker seiner Zeit. Er lieferte in den meisten Teilgebieten der Mathematik und der Physik wichtige Beiträge, beispielsweise
in der Zahlentheorie und der Astronomie. Unter anderem gab er den ersten strengen Beweis für den
Fundamentalsatz der Algebra. Die Gauß’sche Zahlenebene trägt seinen Namen.
1. Gauß-Algorithmus
5
die erweiterte Matrix (A, b) schrittweise in ein leicht lösbares lineares Gleichungssystem, ohne die Lösungsmenge Lös(A, b) zu ändern:
Def inition 1.3 (Treppenform). Eine Matrix A ∈ Mm,n (R) ist in Treppenform mit
r ≥ 0 Stufen, wenn
a) a11 6= 0, . . . , arr 6= 0
b) aij = 0 für i > j und aij = 0 für i > r.
Ein lineares Gleichungssystem Ax = b bzw. die erweitere Matrix (A, b) ist in Treppenform, wenn die zugehörige Koeffizientenmatrix A Treppenform hat.
Eine Matrix in Treppenform mit

a11 a12

 0 ...

 ..
..
 .
.

 0 ···

 0 ···

 ..
 .
0 ···
r Stufen hat folgende Gestalt:

··· ···
···
· · · a1n
.. 
..
.
. 

.. 
..
..
.
.
. 

0 arr ar,r+1 · · · arn 

··· 0
0
···
0 

.. 
. 
··· ···
···
···
0
Dabei können alle Einträge bis auf a11 , . . . , arr Null sein. Bei einem lineares Gleichungssystem in Treppenform
3x1 + 3x2 − x3 = 0
x2 + x3 = 4
2x3 = 6
kann man die Lösung unmittelbar ablesen: x3 :=
x1 := 0 − 3x2 + x3 = 0.
6
2
= 3, x2 := 4 − x3 = 1 und
Lemma 1.4 (Lösung eines LGS in Treppenform). Sei A ∈ Mm,n (R) Matrix in
Treppenform mit r ≥ 0 Stufen und b ∈ Rm . Dann gilt
Lös(A, b) 6= ∅
⇐⇒
br+1 = . . . = bm = 0.
Beweis. Da die Koeffizientenmatrix A in Treppenform mit r ≥ 0 Stufen ist, hat das
lineare Gleichungssystem folgende Form:
a11 x1 + a12 x2 + · · · + a1r xr + · · · + a1n xn = b1
a22 x2 + · · · + a2r xr + · · · + a2n xn = b2
..
.
arr xr + · · · + arn xn = br
0 = br+1
..
.
0 = bm
6
1. Lineare Gleichungssysteme
Man sieht unmittelbar: Gibt es ein i ∈ {r + 1, . . . , m} mit bi 6= 0, dann hat das lineare
Gleichungssystem keine Lösung, denn die i-te Gleichung ist nicht erfüllbar, so dass
Lös(A, b) = ∅.
Sei br+1 = . . . = bm = 0. Wir zeigen, dass dann Lös(A, b) 6= ∅ ist. Wähle beliebige
xr+1 , . . . , xn ∈ R und berechne xr , xr−1 , . . . , x1 ∈ R induktiv gemäß:
xr := (br − ar,r+1 xr+1 − . . . − arn xn )/arr
xr−1 := (br−1 − ar−1,r xr − . . . − ar−1,n xn )/ar−1,r−1
..
.
x1 := (b1 − a1,2 x2 − . . . − a1,n xn )/a11 .
Die Division ist möglich, weil die Koeffizientenmatrix A in Treppenform mit r ≥ 0
Stufen ist, so dass aii 6= 0 für i = 1, . . . , r. Man überzeuge sich, dass x1 , . . . , xn eine
Lösung des linearen Gleichungssystems ist.
Diese Vorgehensweise, um zu einem linearen Gleichungssystem in Treppenform die
Lösung zu ermitteln, entspricht dem aus der Schule bekannten Verfahren. Da durch
eine Wahl der xr+1 , . . . , xn die restlichen xr , . . . , x1 eindeutig bestimmt sind, nennen
wir xr+1 , . . . , xn freie (unabhängige) Variable und xr , . . . , x1 gebundene Variable des
linearen Gleichungssystems.
Sei A ∈ Mm,n (R) und b ∈ Rm . Um das lineare Gleichungssystem Ax = b auf
Treppenform zu überführen, gehe iterativ vor. Durch Induktion über r zeigen wir:
(A, b) läßt derart transformieren, dass die ersten r Spalten von A in Treppenform
sind:
• Die Induktionsverankerung für r = 0 ist trivial, denn die 0-te Spalte von A
ist stets in Treppenform.
• Nach Induktionsvoraussetzung sind die ersten
penform:

a11 a12 · · ·
···
···

.
.
..
..
 0

 ..
..
..
..
 .
.
.
.

A =  0 ···
0
a
r−1,r−1 ar−1,r

 0 ···
0
0
ar,r

 ..
..
..
 .
.
.
0 ···
0
0
am,r
r − 1 Spalten von A in Trep···
···
···
···
a1n
..
.
..
.







ar−1,n 

ar,n 

.. 
. 
am,n
Wir schließen von r − 1 auf r. Falls aij = 0 für alle i, j ≥ r, also


ar,r · · · ar,n
 ..
..  = 0,
 .
. 
am,r · · ·
am,n
ist A bereits in Treppenform mit r Spalten. Im anderen Fall gibt es einen
Eintrag aij 6= 0 mit i, j ≥ r, und wir verfahren wie folgt:
1. Gauß-Algorithmus
7
(1) Vertausche Zeile und Spalte mit Indices größer oder gleich r, derart,
dass dann arr 6= 0 ist (Der Wert arr heißt Pivotelement, man wählt
einfache Pivotelemente, zum Beispiel 1).
ir
(2) Subtrahiere für i = r + 1, . . . , m das aarr
-fache der r-ten Zeile von (A, b)
von der i-ten Zeile. Dann gilt für die Elemente der r-ten Spalte mit
Index i ≥ r:
air
aneu
· arr = 0.
ir = air −
arr
Die ersten r Spalten von A sind in Treppenform.
Das Gauß-Verfahren beruht auf diesen drei Operationen:
a) Zeilenoperation: Addiere das λ-fache der i-ten Zeile von (A, b) zur j-ten Zeile
(λ ∈ R).
b) Zeilenoperation: Vertausche die i-te und die j-te Zeile.
c) Spaltenoperation: Vertausche die i-te und die j-te Spalte.
Die Lösung des linearen Gleichungssystems Ax = b bleibt bei linearen Operationen, d.h. bei Addition einer Gleichung zu einer anderen und bei Multiplikation einer
Gleichung mit einem Skalar ungleich Null, erhalten. Die Zeilenoperationen lassen die
Lösungsmenge Lös(A, b) invariant, man spricht daher auch von Äquivalenztransformationen. Beim Vertauchen der Spalten i und j werden ebenfalls im Lösungsvektor
die Koordinaten an den Stellen i und j vertauscht.
Satz 1.5 (Gauß-Algorithmus). Sei A ∈ Mm,n (R) und b ∈ Rm . Dann transformiert
der Gauß’sche Algorithmus (A, b) mit höchstens mn Zeilen- bzw. Spaltenoperationen
in Treppenform. Man erhält Lös(A, b) in O(n2 m) arithmetischen Schritten.3
Bemerkung 1.6. Mit dem Gauß-Verfahren kann man nicht nur lineare Gleichungssysteme über den reellen Zahlen R, sondern jedem beliebigen Körper K lösen, denn
Körper sind Zahlenbereiche, in denen man wie mir reellen Zahlen rechnet (wir gehen
auf Körper in Kapitel 2 ein). Matrizen und Vektoren werden für beliebige Körper
entsprechend erklärt.
Wir demonstrieren den Gauß-Algorithmus anhand eines Beispieles:
Beispiel 1.7. Betrachte folgendes, lineares Gleichungssystem Ax = b gegeben durch:
x1 + 4x2
=10
4x1 +16x2 + 7x3 =33
2x1 + 8x2 −21x3 =41
Wir wenden den Gauß-Algorithmus auf die erweiterte Matrix


1 4
0
10
 4 16
7
33
2
8 −21 41
3Eine Funktion f : N → N hat das Wachstum O(g(n)), wenn es eine Konstante c gibt, so dass
f (n) ≤ c · g(n) für alle n ∈ N. In unserem Zusammenhang bedeutet dies, dass der Algorithmus
höchstens cn2 m arithmetische Schritte für eine geeignete Konstante c ausführt.
8
1. Lineare Gleichungssysteme
an, als Pivotelement wähle den ersten Eintrag
Vierfache der ersten Zeile von der zweiten:

1 4
0
 0 0
7
2 8 −21
Subtrahiere das Doppelte der ersten

1
0
0
in der ersten Zeile. Subtrahiere das

10
−7
41
Zeile von der dritten:

4
0
10
0
7
−7
0 −21 21
Vertausche die zweite mit der dritten Spalte:


1
0
4 10
0
7
0 −7
0 −21 0 21
Addiere das Dreifache der zweiten Zeile zur dritten:


1 0 4 10
0 7 0 −7
0 0 0 0
Wir lösen das transformierte, linearen Gleichungssystem (beachte die Spaltenvertauschung während des Gauß-Verfahrens)
x1
+ 4x2 = 10
7x3
=−7
0 · x2 = 0
mittels Lemma 1.4. Der Wert von x2 ist frei wählbar und
• x3 = −1, denn 7x3 = −7, sowie
• x1 + 4x2 = 10, denn x1 = 10 − 4x2 .


 10 − 4λ
Die Lösungsmenge ist: Lös(A, b) =  λ 

−1


λ∈R .

Man nennt ein lineares Gleichungssystem Ax = b homogen, falls b = 0, und inhomogen, falls b 6= 0. Die Lösungsmenge eines homogenen linearen Gleichungssystems
Ax = 0 hat eine lineare Struktur: Neben 0 ∈ Lös(A, 0) gilt für x, y ∈ Lös(A, 0) und
λ ∈ R, dass x ± y, λx ∈ Lös(A, 0). Betrachten wir die Struktur von Lös(A, b). Für
jedes x0 ∈ Lös(A, b) gilt
Lös(A, b) = x0 + Lös(A, 0) = {x0 + x | x ∈ Lös(A, 0) } ,
denn wegen A(x0 + x) = Ax0 + Ax für x ∈ Lös(A, 0) und Ax0 = b haben wir folgende
Äquivalenz:
A(x0 + x) = b
⇐⇒
Ax = 0.
2. Gauß-Algorithmus und Matrizen
9
Kennt man Lös(A, 0), den sogenannten Kern von A, und eine spezielle Lösung x0 ∈
Lös(A, b), so kennt man bereits alle Lösungen des imhomogenen linearen Gleichungssystems Ax = b.
2. Gauß-Algorithmus und Matrizen
Wir wollen den Gauß-Algorithmus mit Hilfe von Matrizen-Operationen formulieren.
Die Summe A + B zweier Matrizen A, B ∈ Mm,n (R) ist die Matrix bestehend aus
der komponentenweisen Addition aij + bij der Einträge von A und B, die skalare
Multiplikation λA mit λ ∈ R ist ebenfalls komponentenweise erkärt:
λA = (λaij ) 1≤i≤m
A + B := (aij + bij ) 1≤i≤m
1≤j≤n
1≤j≤n
Die Multiplikation einer Matrix mit einem Vektor ist (Definition 1.2 auf Seite 4) ein
Spezialfall der Matrizenmultiplikation:
Def inition 1.8 (Multiplikation von Matrizen). Das Produkt AB zweier Matrizen
A ∈ Mk,m (R) und B ∈ Mm,n (R) wird erklärt durch
m

m
P
P
a1ν bν1 · · ·
a1ν bνn 

!
m
ν=1
ν=1

X


..
..
AB =
aiν bνj
=
 ∈ Mk,n (R).
.
.


1≤i≤k
m
m
ν=1
P
P

1≤j≤n
akν bν1 · · ·
akν bνn
ν=1
ν=1
Den Eintrag cij des Produkts C := AB erhält man durch Multiplikation der i-ten
Zeile von A mit der j-ten Spalte von B
cij =
m
X
aiν bνj = ai1 b1j + ai2 b2j + . . . + aim bmj
ν=1
j
↓

a11
 .
 .
 .

i→
 ai1

 ..
 .
ak1
···
···
···

a1m

.. 

.  b11

 .
aim 
 ..

..  b
.  m1
akm
j
↓
···
···
c11
 .

 ..
b1n



.. = i→ ci1

. 

 ..
bmn
 .

b1j
..
.
···
bmj
···
ck1
···
c1j
..
.
···
···
cij
···
..
.
···
ckj
···

c1n
.. 
. 


cin 


.. 
. 
ckn
Im Gegensatz zur Multiplikation reeller Zahlen ist die Multiplikation von Matrizen
ist nicht kommutativ, d.h. es gibt Matrizen A, B mit A · B 6= B · A, und das Produkt
zweier von Null verschiedener Matrizen kann durchaus Null ergeben:
1 0
0 1
0 1
·
=
0 0
0 0
0 0
0 1
1 0
0 0
·
=
.
0 0
0 0
0 0
10
1. Lineare Gleichungssysteme
Die n × n-Einheitsmatrix

1 0

0 . . .
In := 
 .. . .
.
.
0 ···

0
.. 
.
 ∈ Mn,n (R)

0
1
···
..
.
..
.
0
entspricht dem Einselement der uns bekannten Zahlenbereiche, d.h. für alle A ∈
Mm,n (R) gilt Im A = A und AIn = A. Geht n aus dem Kontext hervor, sprechen wir
kurz von der Einheitsmatrix. Die Bezeichnung In kommt vom englischen Identity. Im
Deutschen wird die Einheitsmatrix auch mit En bezeichnet. Mit dem sogenannten
Kronecker-Symbol
(
1
δij :=
0
falls i = j
falls i =
6 j
kann man die die Einheitsmatrix beschreiben durch In := (δij )1≤i,j≤n .
Def inition 1.9 (Elementarmatrizen). Zu i, j mit i 6= j und λ ∈ R \ {0} bezeichnen
wir die quadratischen Matrizen
i
↓

a) Vi,j
1
..





i→ 




:=




j→ 




j
↓

.
1
0
0
..
.
0
1
···
0
1
..
0
.
1
0
···
0
1
0
..
.
0
0
1
..
.
1
i
↓






b) Ti (λ) := i→ 




1
..

.
1
λ
1
..
.
1





 ∈ Mn,n (R).













 ∈ Mn,n (R).









2. Gauß-Algorithmus und Matrizen
11
j
↓

1



c) Ti,j (λ) :=


i→ 
..

.
..
.
..
λ
.
1



 ∈ Mn,n (R).


als Elementarmatrizen.
Für A ∈ Mm,n (R) gilt:
a) Die Multiplikation mit Vi,j von links entspricht der Vertauschung der i-ten
Zeile mit der j-ten Zeile von A.
b) Die Multiplikation mit Ti (λ) von links entspricht der Multiplikation der i-ten
Zeile von A mit dem Skalar λ.
c) Die Multiplikation mit Ti,j (λ) von links entspricht der Addition des λ-fachen
der j-ten Zeile zur i-ten Zeile von A.
Die Multiplikation einer Matrix mit einer Elementarmatrix von links bewirkt eine
Transformation der Zeilen der Matrix, eine Multiplikation von rechts dagegen eine
Transformation der Spalten der Matrix. Insbesondere vertauscht man durch Multiplikation von rechts mit der Matrix Vi,j die Spalten i und j.
Def inition 1.10 (Dreiecksmatrix). Eine quadratische Matrix T ∈ Mn,n (R) heißt
• untere Dreiecksmatrix, falls tij = 0 für i < j und
• obere Dreiecksmatrix, falls tij = 0 für i > j.
Die Menge der unteren Dreiecksmatrizen bezeichnen wir mit UDn (R) ⊆ Mn,n (R),
die Menge der oberen Dreiecksmatrizen mit ODn (R) ⊆ Mn,n (R).
Bei unteren Dreiecksmatrizen sind alle Einträge oberhalb der Hauptdiagonalen
Null, also


t11 0 · · ·
0
 ..
.. 
..
..
 .
.
.
. 



 ..
..
 .
. 0 
tn1 · · · · · · tnn
, bei oberen Dreiecksmatrizen alle unterhalb der Hauptdiagonalen.
Satz 1.11 (Produkt von Dreiecksmatrizen). Das Produkt zweier unterer Dreiecksmatrizen ist eine untere Dreiecksmatrix.
Beweis. Seien A, B ∈ UDn (R) und C := AB ∈ Mn,n (R). Es ist cij = 0 für i < j
nachzuweisen. Da A und B untere Dreiecksmatrizen sind gilt, für i < j:
cij =
n
X
aik bkj =
k=1
unn damit C ∈ UDn (R).
i
X
k=1
aik bkj +
|{z}
=0
j
X
aik bkj +
|{z}
k=i+1 =0
n
X
aik bkj = 0
|{z}
k=j+1 =0
12
1. Lineare Gleichungssysteme
Man überlege sich, dass eine analoge Aussage für obere Dreiecksmatrizen gilt.
Weil die Zeilentransformationen Ti,j (λ) im Gauß-Verfahren untere Dreiecksmatrizen sind, folgt aus Satz 1.11:
Korollar 1.12. Sei (A, b) eine erweiterte Matrix derart, dass das Gauß-Verfahren
keine Zeilen- und keine Spaltenvertauschungen vornimmt. Dann liefert es eine untere
Dreiecksmatrix T , so dass T A Treppenform hat.
Bemerkung 1.13. Die Dreiecksmatrizen Ti,j (λ) im Gauß-Verfahren (ohne Zeilenund Spaltenvertauschungen) erfüllen t11 = . . . = tmm = 1. Diese Eigenschaft bleibt
bei der Multiplikation von Matrizen aus UDm (R) erhalten.
Ist A eine quadratische Matrix dergestalt, dass der Gauß-Algorithmus keine Zeilenund Spaltenvertauschungen vornimmt, gilt T A ∈ ODn (R) mit der Transformationsmatrix des Gauß-Verfahrens T ∈ UDn (R).
Def inition 1.14 (Permutationsmatrix). Eine quadratische Matrix P = (pij ) ∈ Mn,n (R)
heißt Permutationsmatrix, wenn
a) pij ∈ {0, 1}
n
P
b)
pij = 1
j=1
und
n
P
pji = 1
für i = 1, . . . , n.
j=1
Eine Permutationsmatrix hat in jeder Zeile und in jeder Spalte genau eine Eins
und sonst nur Nullen als Einträge. Auch für Permutationsmatrizen gilt, dass sie, von
links multipliziert, die Zeilen vertauscht (permutiert), von rechts multipliziert dagegen
die Spalten. Ist dabei pij = 1, dann ist die j-te Zeile (Spalte) von A gleich der i-ten
Zeile (Spalte) von P A (von AP ).
Korollar 1.15. Führt das Gauß-Verfahren auf der erweiterten Matrix (A, b) keine Zeilenvertauschung durch, dann liefert es eine untere Dreiecksmatrix T und eine
Permutationsmatrix P , so dass T AP in Treppenform ist.
In Übungsaufgabe 2.4 wird gezeigt:
Satz 1.16. Sei A ∈ Mn,n (R). Dann gibt es Permutationsmatrizen P1 , P2 ∈ Mn,n (R)
und Dreiecksmatrizen T ∈ UDn (R), B ∈ ODn (R) mit P1 AP2 = T B.
Da P1 , P2 , T, B einfach zu invertieren4 sind, erhält man eine Formel für die inverse
Matrix A−1 . Die Diagonalelemente von T sind 1.
Korollar 1.17 (Matrix-Inversion). Mit Hilfe des Gauß-Algorithmus kann man zu einer quadratischen Matrix A ∈ Mn,n (R) in O(n3 ) arithmetischen Schritten die inverse
Matrix A−1 mit mit A · A−1 = In = A−1 · A bestimmen.
Die Aussage von Korollar 1.17 gilt nicht nur für die reellen Zahlen R, sondern
ebenfalls für beliebige Körper K.
−1
4Eine quadratische Matrix A ∈ M
∈ Mn,n (R)
n,n (R) heißt invertierbar, wenn es eine Matrix A
mit A · A−1 = In = A−1 · A gibt.
Kapitel 2
Körper, Ringe und
Gruppen
Wir beschäftigen uns in diesem Kapitel näher mit verschiedenen algebraischen Strukturen und Abbildungen, welche die algebraische Struktur erhalten, sogenannten Homomorphismen.
1. Körper
Die reellen Zahlen sind ein Beispiel für die algebraische Struktur eines sogeannten
Körpers:
Def inition 2.1 (Körper). Ein Körper ist eine nichtleere Menge K mit zwei Verknüpfungen
+ : K × K → K,
· : K × K → K,
(a, b) 7→ a + b (Addition)
(a, b) 7→ a · b (Multiplikation),
welche die folgenden Axiome erfüllen:
• Gesetze der Addition:
(1) Assoziativität: (x + y) + z = x + (y + z) für alle x, y, z ∈ K.
(2) Kommutativität: x + y = y + x für alle x, y ∈ K(3) Existenz eines Nullelements 0 ∈ K: 0 + x = x = x + 0 für alle x ∈ K.
(4) Existenz additiver inverser Elemente: Zu jedem x ∈ K gibt es ein −x ∈
K mit x + (−x) = 0 = (−x) + x.
• Gesetze der Multiplikation:
(5) Assoziativität: (x · y) · z = x · (y · z) für alle x, y, z ∈ K.
(6) Kommutativität: x · y = y · x für alle x, y ∈ K.
(7) Existenz eines Einselements 1 ∈ K \ {0}: 1 · x = x = x · 1 für alle x 6= 0.
(8) Existenz multiplikativer inverser Elemente: Zu jedem x ∈ K \ {0} gibt
es ein x−1 ∈ K mit x · x−1 = 1 = x−1 · x.
13
14
2. Körper, Ringe und Gruppen
• Distributivgesetze:1
(9) Linksdistributivität: x · (y + z) = x · y + x · z für alle x, y, z ∈ K.
(10) Rechtsdistributivität: (x + y) · z = x · z + y · z für alle x, y, z ∈ K.
Wir schreiben abkürzend xy statt x · y und x − y statt x + (−y), und vereinbaren,
dass die Multiplikation stärker bindet als die Addition, also
xy + z = (xy) + z,
um auf zusätzliche Klammerungen zu verzichten. Jeder Körper hat mindestens zwei
Elemente, denn das Nullelement 0 und das Einselement 1 sind per Definition verschieden. Da zu einer algebraischen Struktur neben einer Menge auch ihre Verknüpfungen
gehören, ist ein Körper genaugenommen ein 3-Tupel (K, +, ·). Wir werden uns aber
meist abkürzend nur auf K beziehen.
Lemma 2.2. In einem Körper K gelten die folgenden Rechenregeln:
a) Nullelement 0 und Einselement 1 sind eindeutig bestimmt.
b) Das additive Inverse −x und das multiplikative Inverse x−1 eines Elements
x ∈ K bzw. x ∈ K \ {0} sind eindeutig bestimmt.
c) Es gilt −(−x) = x und ((x)−1 )−1 = x für x ∈ K bzw. x ∈ K \ {0}.
d) Für x, y, z ∈ K folgt aus x + z = y + z, dass x = y.
e) Für x, y ∈ K und z ∈ K \ {0} folgt aus xz = yz, dass x = y.
f) Ein Produkt xy ist Null, sobald einer der Faktoren x, y ∈ K Null ist. Insbesondere gilt 0 · x = x · 0 = 0.
g) Es gilt Nullteilerfreiheit, d.h. das Produkt xy von x, y ∈ K \ {0} ist ungleich
Null.
h) Für x, y ∈ K \ {0} gilt (xy)−1 = y −1 x−1 .
i) Für x, y ∈ K gilt x · (−y) = (−x) · y = −(xy). Insbesondere ist (−x) · (−y) =
xy.
Beweis. Sei K ein Körper und x, y, z ∈ K.
a) Sei 00 ∈ K ein Nullelement. Da 0 und 00 beides Nullelemente sind, folgt aus
Axiom 3: 00 = 0 + 00 = 0. Sei 10 ∈ K ein Einselement. Weil 1 und 10 beides
Einselemente sind, folgt aus Axiom 7: 10 = 1 · 10 = 1.
b) Sei (−x)0 ein additives Inverses zu x. Es folgt:
(3)
(1)
(4)
(−x)0 = (−x)0 + (x + (−x)) = ((−x)0 + x) +(−x) = −x.
| {z }
|
{z
}
(4)
(3)
=0
=0
(x−1 )0
Sei
ein multiplikatives Inverses zu x ∈ K \ {0}. Dann gilt analog zum
vorherigen Schritt:
(7)
(8)
(5)
(8)
(7)
(x−1 )0 = (x−1 )0 · 1 = (x−1 )0 · (x · x−1 ) = ((x−1 )0 · x) · x−1 = 1 · x−1 = x−1 .
1Aufgrund der Kommutativität der Multiplikation genügt bereits eines der Distributivgesetze.
1. Körper
15
c) Aus (−x) + x = 0 bzw. (x−1 ) · x = 1, folgt dass x das eindeutig bestimmte
Inverse zu −x bzw. x−1 ist.
d) Wegen Axiom (1) und x + z = y + z gilt:
x = x + (z − z) = (x + z) − z = (y + z) − z = y + (z − z) = y.
| {z }
| {z }
=0
=0
e) Wegen Axiom (5) und xz = yz gilt:
x = x · 1 = x(zz −1 ) = (xz)z −1 = (yz)z −1 = y(zz −1 ) = y · 1 = y.
f) Wir zeigen x · 0 = 0. Der Rest der Aussage folgt dann aus Axiom (6). Gemäß
Axiomen (3) und (9) gilt:
x · 0 = x · (0 + 0) = x · 0 + x · 0,
also x · 0 = x · 0 + x · 0. Aus d) folgt 0 = x · 0.
g) Wir zeigen, dass aus xy 6= 0 folgt x = 0 oder y = 0. Angenommen, xy = 0
und x 6= 0. Dann hat x ein multiplikatives Inverses x−1 und:
y = 1 · y = (x−1 x)y = x−1 (xy) = x · 0 = 0.
h) Wir zeigen, dass y −1 x−1 Inverses zu xy ist:
−1
−1
−1
(y −1 x−1 )(xy) = ((y −1 x−1 )x)y = (y −1 x
| {z x})y = (y · 1)y = y y = 1.
=1
i) Aus xy + x(−y) = x(y − y) = x · 0 = 0 folgt −(xy) = x(−y). Analog erhalten
wir aus xy + (−x)y = (x − x)y = 0 · y = 0, dass −(xy) = (−x)y. Weil xy das
additive Inverse zu −(xy) ist, gilt
(−x)(−y) = −((−x)y) = −(−(xy)) = xy.
Dies war zu zeigen.
Wir kennen bereits einige Körper, beispielsweise die reellen Zahlen R, sowie die rationalen Zahlen Q mit der gewohnten Addition und Multiplikation und den Rechenregeln
−1
ad + bc
a c
ac
a c
a
b
+ =
· =
= .
b d
bd
b d
bd
b
a
Die reellen und die rationalen Zahlen sind Beispiele für angeordnete Körper:
Def inition 2.3 (Angeordneter Körper). Ein Körper K heißt angeordnet, wenn es
eine Relation >“ gibt mit:
”
(A1) Für a ∈ K gilt genau eine der drei Beziehungen a > 0, a = 0, −a > 0.
(A2) Aus a > 0 und b > 0 folgt a + b > 0 für a, b ∈ K.
(A3) Aus a > 0 und b > 0 folgt a · b > 0 für a, b ∈ K.
16
2. Körper, Ringe und Gruppen
Die endlichen Körper Z2 und Z3 . Im Gegensatz zu unseren vorherigen Beispielen
bilden die ganzen Zahlen Z keinen Körper, denn in Z existieren keine Inverse bezüglich
der Multiplikation. Wir können aber einen endlichen Körper, also einen Körper mit
nur endlich vielen Elementen, aus 0 und 1 konstruieren. Dazu setze Z2 := {0, 1} und
definiere Addition und Multiplikation wie folgt:
+ 0 1
0 0 1
1 1 0
· 0 1
0 0 0
1 0 1
Man überzeuge sich, dass alle Körperaxiome erfüllt sind. Geht man alle alternativen
Belegungen der Additions- und der Multiplikationstafel durch, so ergibt sich, dass
keine anders definierte Addition und Multiplikation die Körperaxiome erfüllen, denn
durch die Eigenschaften des Nullelements 0 und des Einselements 1 sind die Werte
bis auf 1 + 1 und 0 · 0 festgelegt.
• Die Summe 1+1 muß 0 sein, denn sonst gäbe es zu 1 kein negatives Element.
• Das Produkt 0 · 0 muß 0 sein, denn sonst wäre f) aus Lemma 2.2 verletzt.
Addition und Multiplikation sind im Körper mit zwei Elementen durch die Körpergesetze eindeutig bestimmt. Da jeder Körper mindestens das Null- und das Einselement
enthalten muß, gibt es (bis auf Benennung) nur einen Körper mit zwei Elementen.
Auf analoge Weise gelingt die Konstruktion des Körpers mit drei Elementen: Wir
setzen Z3 := {0, 1, 2} und erklären Addition und Multiplikation wie folgt:
+
0
1
2
0
0
1
2
1
1
2
0
2
2
0
1
·
0
1
2
0
0
0
0
1
0
1
2
2
0
2
1
Auch hier überzeuge sich der Leser, dass alle Körpergesetze erfüllt sind.
Bemerkung 2.4. Endliche Körper heißen Galoisfelder 2 (im Englischen heißt ein
Körper field“). Sie sind bis auf Benennung der Elemente (Isomorphie) eindeutig
”
bestimmt. Man spricht daher von dem endlichen Körper Fq mit q Elementen. Für
Primzahlen p kann man Fp aus Z ableiten. Wir beschäftigen uns allgemein mit endlichen Körpern in Kapitel 15.
Der Körper der komplexen Zahlen. Als weiteres und wichtiges Beispiel eines
Körpers lernen wir die komplexen Zahlen kennen, mit denen bereits Cardano3 im
16. Jahrhundert, wenn auch unverstanden, rechnete. Zu Konstruktion der komplexen
Zahlen C erweitern wir die reellen Zahlen und betrachten Paare von reellen Zahlen:
C := R2 = {(a, b) | a, b ∈ R } .
2Zu Ehren von Evariste Galois, 1811–1832, einem französischen Mathematiker, der, zu seiner
Zeit unverstanden, wichtige Beiträge zur Gruppentheorie und zur Auflösungstheorie algebraischer
Gleichungen lieferte. Er starb mit 21 Jahren bei einem Duell.
3Geronimo Cardano, 1501–1576. Cardano war ein italienischer Mathematiker, Arzt und Naturforscher. Er veröffentlichte u.a. das ihm von Tartaglia mitgeteilte Verfahren zur Lösung kubischer
Gleichungen und ein Buch über das Würfelspiel.
1. Körper
17
Man definiert Addition und Multiplikation wie folgt:
(a, b) + (a0 , b0 ) := (a + a0 , b + b0 )
(a, b) · (a0 , b0 ) := (aa0 − bb0 , ab0 + a0 b).
(3)
Durch Nachrechnen ergibt sich, dass C mit obiger Addition und Multiplikation einen
Körper bildet. Dabei ist (0, 0) das Nullelement und (1, 0) das Einselement. Zu (a, b)
b
a
ist −(a, b) := (−a, −b) Inverses bezüglich der Addition und ( a2 +b
2 , − a2 +b2 ) Inverses
bezüglich der Multiplikation.
Einbettung der reellen Zahlen. Wir interpretieren die reellen Zahlen R ∼
= R × {0} ⊂
C als Teilmenge der komplexen Zahlen. Offenbar ist {(a, 0) | a ∈ R } abgeschlossen
gegenüber Addition und Multiplikation der komplexen Zahlen. Unsere Interpretation
ist gerechtfertigt, denn man erhält in den Gleichungen (3) für b = b0 = 0 die gewohnte
Addition und Multiplikation der reellen Zahlen.
Darstellung mit der imaginären Einheit. Um zu einem besseren Verständnis im Umgang mit den komplexen Zahlen zu kommen, betrachten wir eine alternative Darstellung. Wir zeichnen ein Element der komplexen Zahlen aus und nennen i := (0, 1) die
imaginäre Einheit.4 Offenbar verfügt diese über die Eigenschaft i2 = (0, 1)(0, 1) =
(−1, 0) = −1, also i2 = −1.
Mit dem Einselement (1, 0) und der imaginären Einheit (0, 1) verfügen wir über
eine Basis von C, mit deren Hilfe sich jede komplexe Zahl als Linearkombination von
1 und i darstellen läßt:
(a, b) = a(1, 0) + b(0, 1) = a + bi = a + ib.
In dieser Darstellung ergeben sich, unter Berücksichtigung von i2 = −1, die Regeln
für die Addition und die Multiplikation komplexer Zahlen auf natürliche Weise aus
den Rechenregeln der reellen Zahlen:
a + ib + a0 + ib0 = a + a0 + i(b + b0 )
(a + ib)(a0 + ib0 ) = aa0 + iab0 + iba0 + i2 bb0 = aa0 − bb0 + i(ab0 + a0 b).
Wir stellen die Inversen bezüglich Addition und Multiplikation auf diese Weise dar:
−(a + ib) = −a − ib
(a + ib)−1 =
a − ib
.
a2 + b2
a
b
Diese entsprechen den anfangs angegebenen Inversen (−a, −b) und ( a2 +b
2 , − a2 +b2 ),
denn:
a + ib + (−a − ib) = 0 + i · 0 = 0
a − ib
a2 − i2 b2
a2 + b2
(a + ib) 2
=
=
= 1.
a + b2
a2 + b2
a2 + b2
4Auf Leonhard Euler, 1707–1783, einen bekannten Mathematiker, geht die Einführung dieses
Symbols zurück. In den zahlreichen Veröffentlichungen Eulers finden sich neben einer Fülle von Abhandlungen auch viele ausgezeichnete Gesamtdarstellungen mathematischer Gebiete. Er verzeichnete
bedeutende Erfolge in den meisten Gebieten der Mathematik und ihrer Anwendungen im weiteren
Sinne. Die Symbole f (x), π und e gehen auf ihn zurück.
18
2. Körper, Ringe und Gruppen
Abbildung 1. Gauß’sche Zahlenebene
Imaginärteil 6
b
7
` i
ϕ
0
1
a
-
Realteil
Die Gauß’sche Zahlenebene 5 liefert eine geometrische Interpretation der komplexen Zahlen. Wir fassen die komplexen Zahlen als Punkte der reellen Ebene auf und
nennen a den Realteil und b den Imaginärteil einer komplexen Zahl a + ib. Anhand
dieser Auffassung wird deutlich, dass man komplexe Zahlen auf eine dritte Art und
Weise darstellen kann, nämlich mit Polarkoordinaten: Wir interpretieren einen Punkt
als Ortsvektor und beschreiben ihn durch seine euklidische6 Länge und den Winkel
zwischen ihm und der positiven reellen Achse (siehe Abbildung 1). Jede komplexe Zahl
(außer der Null) wird eindeutig durch ihre Länge ` und ihren Winkel ϕ beschrieben.
Wir erhalten eine bijektive Abbildung
R2 → R≥0 × [0, 2π),
(a, b) 7→ (`, ϕ),
wobei R≥0 := {x ∈ R | x ≥ 0 } die Menge der nicht-negativen, reellen Zahlen ist.
Wie sieht die Darstellung von
Die Länge der
√ a+ib ∈ C in in Polarkoordinaten aus?
a
2
2
komplexen Zahl a + ib ist ` = a + b , für den Winkel gilt cos ϕ = ` bzw. sin ϕ = b` :
(a, b) = a + ib = `(cos ϕ + i sin ϕ).
Die Multiplikation zweier komplexer Zahlen in Polarkoordinaten gestaltet sich einfach:
`(cos ϕ + i sin ϕ) · `0 (cos ϕ0 + i sin ϕ0 ) = ``0 (cos(ϕ + ϕ0 ) + i sin(ϕ + ϕ0 )).
5Carl Friedrich Gauß, 1777–1855, siehe Fußnote auf Seite 4
6Euklid, ca. 365–300 v.Chr., war einer der großen Mathematiker und Philosophen der Antike.
Seine Elemente“ sind eines der bekanntesten mathematischen Werke überhaupt und waren 2000
”
Jahre lang Grundlage der Mathematikausbildung. Über ihn selbst ist wenig bekannt, doch wird
folgende Anekdote von ihm überliefert: Als ein Schüler ihn fragte, welchen Nutzen er davon habe,
die geometrischen Lehrsätze zu lernen, rief Euklid einen seiner Sklaven und beauftragte ihn, dem
Studenten eine kleine Geldmünze zu schenken, da dieser armselige Mensch einen Gewinn aus seinen
”
Studien ziehen müsse“.
2. Ringe und Schiefkörper
19
Zur Multiplikation zweier komplexe Zahlen (in Polarkoordinaten), multipliziere die
Längen und addiere die Winkel, denn gemäß Additionstheoremen für Sinus und Cosinus gilt:
cos(ϕ + ϕ0 ) = cos ϕ cos ϕ0 − sin ϕ sin ϕ0
sin(ϕ + ϕ0 ) = sin ϕ cos ϕ0 + sin ϕ0 cos ϕ.
Unterkörper. Interpretiert man die Standard-Zahlenbereiche als Erweiterungen voneinander, also N ⊂ Z ⊂ Q ⊂ R ⊂ C, ist zu erkennen, dass diese zunehmend abgeschlossen gegenüber verschiedenen Operationen sind:
• N Abschluß gegenüber Addition und Multiplikation
• Z Abschluß von N gegenüber Subtraktion.
• Q Abschluß von Z gegenüber Division.
• R Abschluß von Q gegenüber Häufungspunkten und Konvergenz
• C Abschluß von R gegenüber algebraischen Gleichungen.7
Die rationalen Zahlen Q sind ein Unterkörper der reellen Zahlen R, die man ihrerseits
als Unterkörper der komplexen Zahlen C auffaßt:8
Def inition 2.5 (Unterkörper). Eine nichtleere Teilmenge K0 ⊆ K eines Körpers K
heißt Unterkörper, wenn K0 mit den Verknüpfungen von K selbst ein Körper ist.
Assoziativität, Kommutativtät und die Distributivgesetze übertragen sich vom Körper
K auf die Teilmenge K0 .
Satz 2.6. Sei K ein Körper. Ein Teilmenge K0 ⊆ K mit den gleichne Verküpfungen
ist genau dann ein Unterkörper von K, wenn
a) 0, 1 ∈ K0 ,
b) für x, y ∈ K0 ist x − y ∈ K0 und
c) für x, y ∈ K0 \ {0} ist xy −1 ∈ K0 .
Wir folgern später diese Charakterisierung mittels Korollar 2.14 aus Satz 2.17.
2. Ringe und Schiefkörper
Ein Ring unterscheidet sich im wesentlichen dadurch von einem Körper, dass er nicht
notwendigerweise über multiplikative Inverse verfügt. Je nachdem, welche Axiome
außerdem nicht gelten, unterscheiden wir verschiedene Arten von Ringen:
Def inition 2.7 (Ring). Ein Ring R erfüllt alle Körperaxiome bis auf die Axiome 6
(Kommutativität der Multiplikation), 7 (Existenz der Eins) und 8 (Existenz inverser
Elemente) gelten.
7Jedes Gleichung Pn a xi = 0 mit n ≥ 1 und a , . . . , a ∈ C hat eine Lösung x ∈ C. Dies
0
n
i=0 i
ist der sogenannte Fundamentalsatz der Algebra von C.F. Gauß, auf den wir in Kapitel 4 über
Polynome genauer eingehen (Fakt 4.23).
8Hingegen ist zum Beispiel Z = {0, 1} kein Unterkörper der reellen Zahlen R (obwohl 0, 1 ∈ R),
2
denn die Verknüpfungen sind unterschiedlich: In Z2 gilt 1 +2 1 = 0, während über den reellen Zahlen
1 + 1 = 2 ist.
20
2. Körper, Ringe und Gruppen
Existiert das Einselement, sprechen wir von einem Ring mit Eins, ist die Multiplikation kommutativ, von einem kommutativen Ring. Ein nullteilerfreier, kommutativer Ring, der außer der 0 ein weiteres Element enthält, heißt Integritätsring (auch
Integritätsbereich).
Zu einem Ring gehören neben einer Menge auch seine Verknüpfungen, ein Ring
ist eigentlich ein 3-Tupel (R, +, ·). Wie bei Körpern beziehen wir uns aber meist
abkürzend nur auf R. Bei Ringen fallen die beiden Distributivgesetze (Axiome 9 und
10) im allgemeinen nicht zusammen. Ein Ring heißt nullteilerfrei (siehe Lemma 2.2),
wenn er keine Nullteiler besitzt. Da in Ringen keine multiplikativen Inversen existieren
müssen, folgt im allgemeinen aus xz = yz nicht, dass y = z ist (d.h. man darf nicht
kürzen“). Unterringe definiert man analog zu Unterkörpern (Definition 2.5).
”
Beispiel 2.8. Wir haben bereits einige Ringe kennengelernt:
• Die Menge Z der ganzen Zahlen bildet einen kommutativen Ring mit Eins.
Dieser Ring ist sogar ein Integritätsbereich.
• Die Menge Mn,n (R) der quadratischen Matrizen bildet einen Ring mit Eins.
Dabei ist die Nullmatrix das Nullelement und die Einheitsmatrix das Einselement. Dieser Ring ist nicht nullteilerfrei.
Wenn wir in der Definition eines Körpers auf die Kommutativität der Multiplikation verzichten, erhält man einen sogenannten Schiefkörper (Divisionsring):
Def inition 2.9 (Schiefkörper). Ein Schiefkörper S erfüllt alle Körperaxiome bis auf
Axiom 6 (Kommutativität der Multiplikation).
Im Gegensatz zu Körpern ist es bei Schiefkörpern zwingend erforderlich (da die
Multiplikation nicht kommutativ sein muß), explizit 1x = x1 = 1 zu fordern. Dann
stimmt Linksinverses und Rechtsinverses zu einem Element überein:
−1
−1
−1
−1
−1
x−1
L = xL (xxR ) = (xL x) xR = xR
| {z } | {z }
=1
=1
Im Gegensatz ein einem Körper sind für Schiefkörper sind beide Distributivitätsgesetze notwendig.
Quaternionen-Schiefkörper. Als Beispiel eines Schiefkörpers betrachten wir den
Schiefkörper der Quaternionen H, den Hamilton9 entdeckte. Die Idee ist, die komplexen Zahlen zu erweitern, indem man statt Paaren 4-Tupel reeller Zahlen betrachtet.
Wir setzen
H := R4 = {(a, b, c, d) | a, b, c, d ∈ R}
und führen dann in Analogie zur imaginären Einheit in C drei imaginäre Einheiten
i, j, k ein, für die gilt
i2 = j 2 = k 2 = −1,
ij = k,
jk = i,
ki = j.
9William Rowan Hamilton, 1805–1865. Ein irischer Mathematiker und Physiker mit Arbeiten
auf den Gebieten der Mechanik, der Optik und der Algebra.
3. Gruppen
21
Mit diesen imaginären Einheiten stellt man ein Element (a, b, c, d) ∈ H als a +
ib + jc + kd dar. Addition und Multiplikation zweier Quaternionen h = (a, b, c, d),
h0 = (a0 , b0 , c0 , d0 ) ∈ H ergeben sich unter Berücksichtigung der Eigenschaften der imaginären Einheiten aus der gewohnten Addition und Multiplikation der reellen Zahlen:
h + h0 = a + a0 + i(b + b0 ) + j(c + c0 ) + k(d + d0 )
h · h0 = aa0 − bb0 − cc0 − dd0 + i(ab0 + ba0 + cd0 − dc0 )
+ j(ac0 − bd0 + ca0 + db0 ) + k(ad0 + bc0 − cb0 + da0 ).
Mit c = d = 0 sind dies die komplexen Zahlen (einschließlich der gewohnten Addition
und Multiplikation in C). Man kann die komplexen Zahlen
C∼
= C × {0} × {0} ⊂ H
⊂
als Teilmenge der Quaternionen betrachten, es gilt R ⊂
∼ C ∼ H.
3. Gruppen
Im Gegensatz zu Körpern und Ringen verfügen Gruppen nur über eine Verknüpfung.
Def inition 2.10 (Gruppe). Eine Gruppe ist eine Menge G mit einer Verknüpfung
· : G × G → G und den Gesetzen:
a) Assoziativität: (xy)z = x(yx) für alle x, y, z ∈ G.
b) Existenz des neutralen Elementes 1: 1 · x = x · 1 = x für alle x ∈ G.
c) Existenz inversen Elemente x−1 ∈ G: x−1 x = 1 = xx−1 für alle x ∈ G.
Eine Gruppe G heißt kommutative Gruppe, falls die Verknüpfung kommutativ ist,
d.h. für x, y ∈ G gilt x · y = y · x.
Das neutrale Element 1 wird oft auch mit e (für Einheit) bezeichnet. Eine kommutative Gruppe nennt man abelsch 10. Wir haben in der Gruppen-Definition 2.10
die multiplikative Schreibweise verwendet. Bei einer additiven Schreibweise wird die
Verknüpfung mit +“, das neutrale Element mit 0 und die inversen Elemente mit −x
”
bezeichnet. Man verwendet allgemein für Gruppen die multiplikative Schreibweise
(G, ·) und für kommutative Gruppen die additive Schreibweise (G, +).
Def inition 2.11 (Monoid, Halbgruppe). Ein Monoid M erfüllt alle Gruppenaximone
bis auf die Existenz inverser Elemente. Eine Halbgruppe H ist eine nichtleere Menge
H mit einer assoziativen Verknüpfung.
Ein Monoid ist eine Halbgruppe mit einem neutralen Element, eine Gruppe ist eine
Halbgruppe mit inversen Elementen.
Beispiel 2.12. Beispiele für Halbgruppen, Monoide und Gruppen sind:
10Niels Hendrik Abel, 1802–1829, ein bedeutender norwegischer Mathematiker. Er lieferte
wichtige Beiträge zur Funktionentheorie (insbesondere zu elliptischen Funktionen und Integralen)
und zur Auflösungstheorie algebraischer Gleichungen. Zu seinen Ergebnissen zählen beispielsweise
das Abelsche Theorem, eine Verallgemeinerung des Additionstheorems elliptischer Integrale, sowie
die Unauflösbarkeit der allgemeinen Gleichungen fünften oder höheren Grades in Radikalen.
22
2. Körper, Ringe und Gruppen
• Sei X eine nicht leere Menge. Die Menge aller Abbildungen
Abb(X, X) := {f | f : X → X }
ist mit der Komposition (Hintereinanderausführung)
(f ◦ g)(x) := f (g(x)),
als Verknüpfung ein Monoid: Für alle f, g, h ∈ Abb(X, X) und x ∈ X gilt
(h ◦ (f ◦ g))(x) = h(f (g(x))) = (h ◦ f )(g(x)) = ((h ◦ f ) ◦ g)(x)
Die Einheit ist die Identitätsfunktion id(x) = x.
• Die Menge Mn,m (K) der n × n-Matrizen über einem Körper K ist mit der
Multiplikation und der Einheitsmatrix als neutralem Element eine Halbgruppe. Die Assoziativität der Matrix-Multiplikation überträgt sich aus K (siehe
Übungsaufgabe 2.1).
• Die Menge N0 = {0, 1, 2, . . .} der natürlichen Zahlen ist mit der Addition
und 0 als neutralem Element ein Monoid.
• Die Menge
GLn (K) := A ∈ Mn,n (K) A−1 existiert
der invertierbaren n × n-Matrizen über einem Körper K ist mit der Multiplikation eine Gruppe (die allgemeine, lineare Gruppe). Zu C := AB mit
A, B ∈ GLn (K) ist das Inverse C −1 = B −1 A−1 .
• Sei R ein Ring mit Eins. Dann ist die Menge der invertierbaren Elemente
R∗ := r ∈ R r−1 existiert
mit der Multiplikation eine Gruppe, die sogenannte Einheitengruppe. Es ist
R∗ ⊆ R \ {0} und im Fall eines Körpers K gilt die Gleichheit K∗ = K \ {0}.
Analog zu Lemma 2.2 weist man folgende Rechenregeln für Gruppen nach:
Lemma 2.13. In einer Gruppe G gelten die folgenden Rechenregeln:
a) Das Einselement 1 ist eindeutig bestimmt.
b) Das Inverse x−1 eines Elements x ∈ G ist eindeutig bestimmt.
c) Für x, y ∈ G gilt (xy)−1 = y −1 x−1 .
d) Für x, y, z ∈ G folgt aus xz = yz, dass x = y.
e) Für x, y, z ∈ G folgt aus zx = zy, dass x = y.
Mit Gruppen können wir Körper und Ringe kürzer als bisher beschreiben.
Korollar 2.14 (Körper). Eine nichtleere Menge K zusammen mit zwei inneren Verknüpfungen (Addition und Multiplikation) ist genau dann ein Körper, falls:
a) K ist zusammen mit der Addition eine kommutative Gruppe.
b) K∗ ist zusammen mit der Multiplikation eine kommutative Gruppe.
c) Es gilt Distributivität.
4. Homomorphismen
23
Korollar 2.15 (Ring). Eine nichtleere Menge R mit zwei inneren, binären Verknüpfungen Addition und Multiplikation. ist genau dann ein Ring, falls:
a) R ist zusammen mit der Addition eine kommutative Gruppe.
b) R \ {0} ist zusammen mit der Multiplikation eine Halbgruppe.
c) Es gilt Links- und Rechtsdistributivität.
R ist genau dann ein (kommutativer) Ring mit Eins, wenn R \ {0} mit der Multiplikation einen (kommutativen) Monoid darstellt.
Untergruppe definiert man analog zu Unterkörpern (Definition 2.5).
Def inition 2.16 (Untergruppe). Eine nichtleere Teilmenge U einer Gruppe G heißt
Untergruppe, wenn U mit der Verknüpfung aus G selbst eine Gruppe ist.
Eine einfache Charakterisierung einer Untergruppe liefert folgender Satz:
Satz 2.17. Sei G eine Gruppe. Eine nichtleere Teilmenge U ⊆ G ist genau dann eine
Untergruppe von G, falls aus x, y ∈ U folgt xy −1 ∈ U .
Beweis. Offenbar erfüllt jede Untergruppe U ⊆ G das Kriterium. Angenommen, eine
nichtleere Teilmenge U ⊆ G erfüllt die Bedingung. Die Assoziativität überträgt sich
von G auf U , nachzuweisen bleibt, dass die Teilmenge U abgeschlossen gegenüber der
Verknüpfung ist und Inverse in U existieren. Wegen U 6= ∅ existiert ein u ∈ U , aus
dem zweiten Kriterium folgt mit x := u und y := u:
1 = uu−1 ∈ U.
Die Teilmenge U enthält das Einselement 1. Zu u ∈ U ist auch u−1 ∈ U , denn aus der
zweiten Eigenschaften und 1 ∈ U folgt u−1 = 1 · u−1 ∈ U , und U ist eine Untergruppe
von G.
Wir beweisen Satz 2.6 mit Hilfe der Charakterisierung aus Korollar 2.14. Nach Satz
2.17 gilt für K0 :
• (K0 , +) ist eine Untergruppe von (K, +) und
• ((K0 )∗ , ·) eine Untergruppe von (K∗ , ·).
Da sich die Distributivität überträgt, ist K0 ein Körper. Statt Eigenschaft a) genügt
die Bedingung (K0 )∗ 6= ∅.
4. Homomorphismen
Ein Homomorphismus ist eine Abbildung, bei der kein Unterschied besteht, ob man
zuerst die auf der Struktur definierte Verknüpfung und danach den Homomorphismus
ausführt oder umgekehrt. Homomorphismen sind rechentreue“ oder strukturerhal”
”
tende“ Abbildungen, d.h. die Rechenregeln einer Struktur bleiben bei der Abbildung
erhalten.
Def inition 2.18 (Gruppenhomomorphismus). Seien (G, · ) und (G0 , ◦) Gruppen. Eine Abbildung f : G → G0 heißt Gruppenhomomorphismus, falls für x, y ∈ G gilt
f (x · y) = f (x) ◦ f (y).
(4)
24
2. Körper, Ringe und Gruppen
Man beachte, dass es sich bei x · y um die Verknüpfung von G handelt, bei f (x) ◦
f (y) dagegen um die Verknüpfung von G0 . Für Homomorphismen von Halbgruppen
und Monoiden fordert man ebenfalls Eigenschaft (4).
√
Beispiel 2.19. Für die Gruppe (R≥0 , ·) ist die Funktion f (x) := x ein Homomorphismus:
√ √
√
f (x · y) = x · y = x · y = f (x) · f (y).
Die Funktion exp : (R, +) → (R, ·), x 7→ ex ist ein Gruppenhomomorphismus:
exp(x + y) = ex+y = ex · ey = exp(x) · exp(y).
Sei f : G → G0 ein Gruppenhomomorphismus und x ∈ G. Es gilt f (1G ) = 1G0 , denn
f (1) = f (1 · 1) = f (1) · f (1),
und aus 1 = f (1) = f (x · x−1 ) = f (x) · f (x−1 ) erhalten wir f (x−1 ) = f (x)−1 . Das
Bild von f ist bild f := {f (x) | x ∈ G } ⊆ G0 und
ker f := {x ∈ G | f (x) = 1 } = f −1 (1) ⊆ G
heißt der Kern von f .11 Man kann leicht nachrechnen, dass ker f eine Untergruppe
von G und bild f Untergruppe von G0 ist.
Def inition 2.20 (Ring- und Körperhomomorphismus). Seien (R, +, ·) und (R0 , ⊕, ◦)
Ringe. Eine Abbildung f : R → R0 heißt Ringhomomorphismus, falls für x, y ∈ R gilt
a) Additivität: f (x + y) = f (x) ⊕ f (y) und
b) Homogenität: f (x · y) = f (x) ◦ f (y).
Falls R, R0 Körper sind, spricht man von einem Körper-Homomorphismus.
Bei einem Homomorphismus f : A → A0 übertragen alle Operationen die algebraischen Struktur A. Man spricht davon, dass die Operationen der Struktur sich
übertragen oder mit f verträglich sind.
Bemerkung 2.21 (Homomorphieprinzip). Seien A und A0 algebraische Strukturen
und f : A → A0 ein surjektiver Homomorphismus (Epimorphismus). Dann gilt für
jede der beteiligten Verknüpfungen, dass sich Assoziativität, Kommutativität, die
Existenz des neutralen Elements sowie die Existenz der inversen Elemente von A auf
A0 übertragen. Man nennt dies das Homomorphieprinzip.
Sei f : R → R0 ein Ringhomomorphismus. Bild und Kern werden analog erklärt.
Man nennt bild(f ) := {f (x) | x ∈ R } das Bild von f und
ker f := {x ∈ R | f (x) = 0 } = f −1 (0)
den Kern von f . Es gilt f (0) = 0 und f (−x) = −f (x), denn f : (R, +) → (R0 , +) ist
ein Gruppenhomorphismus.
Def inition 2.22 (Spezielle Homomorphismen). Ein Homomorphismus f heißt
11Beachte, dass f −1 (y) nicht die Umkehrabbildung bezeichnet (diese existiert im allgemeinen
nicht), sondern die Menge aller x ∈ G mit f (x) = y.
4. Homomorphismen
25
• Monomorphismus, falls f injektiv ist.
• Epimorphismus, falls f surjektiv ist.
• Isomorphismus, falls f bijektiv ist.
• Endomorphismus, falls f eine Abbildung einer Menge in sich ist.
• Automorphismus, falls f ein bijektiver Endomorphismus ist.
Die Umkehrabbildung eines Isomorphismus ist ebenfalls ein Isomorphismus. Zwei
Strukturen A, A0 heißen isomorph, A ∼
= A0 , falls ein Isomorphismus f : A → A0
existiert.
Beispiel 2.23. Für G := 2k k ∈ Z gilt (Z, +) ∼
= (G, ·), wobei der Isomorphismus
k
durch f : Z → G mit k 7→ 2 gegeben ist.
Wir betrachten als weiteres Beispiel für spezielle Homomorphismen einen Körperautomorphismus der komplexen Zahlen C.
Beispiel 2.24. Die Abbildung f : C → C mit (a + ib) 7→ (a − ib) ordnet jeder
komplexen Zahl z = a + ib die dazugehörige konjugiert komplexe Zahl z := a − ib zu.
Dies entspricht in der Gauß’schen Zahlenebene einer Spiegelung an der reellen Achse.
Da f eine Abbildung von C nach C ist, bleibt zu zeigen, dass f bijektiv ist und die
Homomorphie-Eigenschaften besitzt. Die Bijektivität folgt aus
f (f (a + ib)) = f (a − ib) = a + ib,
d.h. es ist f −1 = f . Wir rechnen die Homomorphie-Eigenschaften nach:
f (a + ib) + f (a0 + ib0 ) = a − ib + a0 − ib0
= (a + a0 ) − i(b + b0 )
= f (a + a0 + i(b + b0 ))
= f (a + ib + a0 + ib0 ).
Für die Multiplikation gilt:
f (a + ib)f (a0 + ib0 ) = (a − ib)(a0 − ib0 )
= (aa0 − bb0 ) − i(ab0 + a0 b)
= f (aa0 − bb0 + i(ab0 + a0 b))
= f ((a + ib)(a0 + ib0 )).
Dies ergibt folgende Rechenregeln für die Konjugation komplexer Zahlen z1 , z2 ∈ C:
z1 + z 2 = z1 + z2
z1 · z 2 = z1 · z 2
z 1 = z1 .
Betrachten wir die Konjugation in der Darstellung mit Polarkoordinaten. Offenbar
haben z und z die gleiche Länge. Für die Winkel gilt ϕ = 2π − ϕ = −ϕ mod 2π. Das
Produkt zweier konjugiert komplexer Zahlen z1 · z2 hat den Winkel −ϕ1 + (−ϕ2 ) mod
2π, das konjugiert komplexe Produkt zweier komplexer Zahlen z1 · z2 hat den Winkel
26
2. Körper, Ringe und Gruppen
−(ϕ1 + ϕ2 ) mod 2π. Dabei folgt die Gleichheit der Winkel und Längen auch aus den
Homomorphie-Eigenschaften der komplexen Konjugation: z1 · z2 = z1 · z2 .
5. Vom Ring Z abgeleitete Körper
Wir haben bereits in Abschnitt 1 dieses Kapitels die endlichen Körper Z2 und Z3
kennengelernt. Nun konstruieren wir aus den ganzen Zahlen Z endliche Strukturen
Zp , die sich für prime12 p als Körper erweisen.
Sei n ∈ N \ {0}. Wir erklären Addition und Multiplikation auf dem ganzzahligen
Intervall [0, n − 1] = {0, 1, . . . , n − 1} ⊆ N gemäß
a +n b := (a + b) − qn
a ·n b := (ab) − q 0 n
mit q, q 0 ∈ Z, so dass (a + b) − qn ∈ [0, n − 1] und (ab) − q 0 n ∈ [0, n − 1]. Das eindeutig
bestimmte q bzw. q 0 ergibt sich aus der Division mit Rest [W96]:
Satz 2.25 (Division mit Rest). Zu a ∈ Z, b ∈ N \ {0} gibt es eindeutig bestimmte
Zahlen q, r ∈ Z mit a = qb + r und 0 ≤ r < b.
Da r eindeutig bestimmt ist, nennen wir r den Rest bei der Division von a durch
b und bezeichnen ihn mit a mod b (man spricht a modulo b“). Also:
”
a +n b := (a + b) mod n
a ·n b := (ab) mod n
Def inition 2.26 (Zn ). Sei Zn := ([0, n−1], +n , ·n ) die algebaische Struktur bestehend
aus der Menge [0, n − 1] und den beiden Verknüpfungen +n“ und ·n“.
”
”
Für Zn schreibt man auch Z/nZ oder Z/(n) und spricht von einem Faktorring.
Wir wollen zeigen, dass Zn ein kommutativer Ring mit Einselement ist. Nach dem
Homomorphie-Prinzip (Bemerkung 2.21 auf Seite 24) genügt der Nachweis, dass die
Abbildung rn : Z → Zn mit
rn (a) := a mod n,
d.h. a wird abgebildet auf den Teilerrest bei Division durch n, ein Homomorphismus
ist. Es gilt r−1 (a) = a+nZ = {a + nz | z ∈ Z }. Wir identifizieren das Element a ∈ Zn
mit der Menge a + nZ:
Zn = [0, n − 1]
↔
{r + nZ | r = 0, 1, . . . , n − 1 } .
Zu einem festen r ∈ [0, n − 1] heißt die Menge r + nZ die Restklasse modulo n und
r nennt man einen Repräsentanten dieser Restklasse. Die Restklasse ist unabhängig
von der Wahl des Repräsentanten:
r + nZ = r0 + nZ
⇐⇒
r − r0 ∈ nZ.
(5)
12Eine Zahl p ∈ N\{1} heißt prim, wenn p nicht als Produkt ab mit a, b ∈ [1, p−1] darstellbar ist.
Dabei wird die Zahl 1 als Spezialfall per Definition ausgeschlossen. Teilt eine Primzahl ein Produkt
xy, so teilt p einen der beiden Faktoren x oder y.
5. Vom Ring Z abgeleitete Körper
27
Die nachzuweisenden Homomorphie-Eigenschaften
rn (a + b) = rn (a) +n rn (b)
rn (a · b) = rn (a) ·n rn (b)
mit a, b ∈ Z sind äquivalent zu:13
(a + b) + nZ = (a + nZ) + (b + nZ)
(ab) + nZ = (a + nZ) · (b + nZ)
(6)
Für a, b ∈ [0, n − 1] gilt offenbar (6). Sei a0 := a + sn und b0 := b + tn mit s, t ∈ Z und
a, b ∈ [0, n − 1]. Es genügt der Nachweis von
(a0 + b0 ) − (a + b) ∈ nZ
(a0 b0 ) − (ab) ∈ nZ,
(7)
d.h. rn (a + b) = rn (a0 + b0 ) und rn (ab) = rn (a0 b0 ), d.h. beide Repräsentanten stehen
jeweils für die gleiche Restklasse. Gleichungen (7) folgen aus:
(a0 + b0 ) − (a + b) = (a + b + (s + t)n) − (a + b) = (s + t)n ∈ nZ
(a0 b0 ) − (ab) = (ab + atn + bsn + tsn2 ) − (ab) = (at + bs + tsn)n ∈ nZ
Wir haben gezeigt:
Satz 2.27. Für n ∈ N \ {0} ist Zn ist ein kommutativer Ring mit Eins.
Das Nullelement ist die Restklasse 0+nZ, das Einelement 1+nZ. Insbesondere ist
(Zn , +) nach Satz 2.27 eine kommutative Gruppe. Im allgemeinen handelt es sich bei
Zn jedoch um keinen Körper, denn beispielsweise existiert in Z4 kein multiplikatives
Inverses zu 2.
Satz 2.28. Zn ist genau dann ein Körper, wenn n eine Primzahl ist.
Beweis. Wir wissen bereits aus Satz 2.27, dass Zn ein kommutativer Ring mit Eins
ist und sich von einem Körper nur durch Axiom 8 (Existenz inverser Elemente) unterscheiden kann.
Ist n keine Primzahl, so gibt es a, b ∈ [1, n − 1] mit n = ab. Wegen (ab) mod n = 0
sind a mod n und b mod n Nullteiler in Zn , so dass Zn kein Körper ist.
Sei p eine Primzahl. Wir zeigen, dass es zu jedem a ∈ [1, p − 1] ein Inverses gibt
und Zp daher ein Körper ist. Betrachte die Produkte a ·p 0, a ·p 1, . . . , a ·p (p − 1). Diese
sind paarweise verschieden. Denn angenommen, es gäbe i, j mit 0 ≤ i 6= j < p und
a ·p i = a ·p j. Da a 7→ (a mod p) ein Homomorphismus ist, folgt a(i − j) ∈ pZ und p
teilt a(i − j). Da p eine Primzahl ist, teilt p mindestens einen der Faktoren. Wegen
0 6= a < p, muß p die Differenz i − j teilen — Widerspruch, denn 0 < |i − j| < p.
Da die p obigen Produkte paarweise verschieden sind und |Zp | = p ist, läßt sich jedes
Element aus Zp darstellen als Produkt von a und einem anderen Element b ∈ Zp .
Wegen 1 = a ·p b ist b Inverses zu a.
13Gleichung (6) bedeutet, dass + “ und · “ über Repräsentanten und die Addition bzw. Muln
n
”
”
tiplikation auf Z erklärt werden. Zu zeigen bleibt, dass die Verknüpfungen wohldefiniert sind, d.h. unabhängig von der Wahl der Repräsentanten.
28
2. Körper, Ringe und Gruppen
Der Beweis ist nicht konstruktiv, liefert also keinen Anhaltspunkt für die Berechnung
des Inversen von in Zp . Man kann die Inversen effizient mit dem (erweiterten) Euklidische Algorithmus, der in den Vorlesungen über Algebra“ und diskrete Mathematik“
”
”
vorgestellt wird, bestimmen.
Beispiel 2.29. Betrachten wir ein weiteres Beispiel eines endlichen Körpers. Den
Körper Z7 mit sieben Elementen leiten wir aus Z ab:
+
0
1
2
3
4
5
6
0
0
1
2
3
4
5
6
1
1
2
3
4
5
6
0
2
2
3
4
5
6
0
1
3
3
4
5
6
0
1
2
4
4
5
6
0
1
2
3
5
5
6
0
1
2
3
4
6
6
0
1
2
3
4
5
·
0
1
2
3
4
5
6
0
0
0
0
0
0
0
0
1
0
1
2
3
4
5
6
2
0
2
4
6
1
3
5
3
0
3
6
2
5
1
4
4
0
4
1
5
2
6
3
5
0
5
3
1
6
4
2
6
0
6
5
4
3
2
1
Wir nennen zwei ganze Zahlen a, b ∈ Z kongruent modulo n, falls die Reste bei
Division von a und b durch n gleich sind, also a − b ∈ nZ ist:
a≡b
(mod n).
Die Kongruenz modulo n ist ein Beispiel für eine Äquivalenzrelation auf Z.
Def inition 2.30 (Äquivalenzrelation, Äquivalenzklasse). Sei X eine Menge. Eine
Teilmenge R ⊆ X × X ist eine Äquivalenzrelation auf X, wenn gilt:
(A1) Reflexivität: (x, x) ∈ R für alle x ∈ X.
(A2) Symmetrie: Aus (x, y) ∈ R folgt (y, x) ∈ R.
(A3) Transitivität: Aus (x, y), (y, z) ∈ R folgt (x, z) ∈ R.
Anstelle von (x, y) ∈ R schreibt man oft xRy. Zu x ∈ X heißt die Teilmenge
[x]R := {y ∈ Y | (x, y) ∈ R }
die Äquivalenzklasse von x bezüglich R.
Die Äquivalenzklassen bezüglich der Kongruenz modulo n sind die n Restklassen.
Man rechnet mit Hilfe von (5) leicht nach:
Satz 2.31. Sei n ∈ N \ {0}. Die Kongruenz modulo n ist eine Äquivalenzrelation auf
den gaznzen Zahlen Z.
Kapitel 3
Vektorräume
Zentraler Gegenstand der linearen Algebra sind Vektorräume, die wir in diesem Abschnitt kennenenlernen. Wir definieren den Begriff und führen Untervektorräume,
Basen und Dimension ein.
1. Vektorraum und Untervektorraum
Wir beginnen mit der Definition des Vektorraums (auch linearer Raum genannt):
Def inition 3.1 (Vektorraum). Sei K ein Körper. Eine nichtleere Menge V mit zwei
Verknüpfungen
+: V × V → V ,
· : K×V →V ,
(v, w) 7→ v + w (Addition)
(λ, v) 7→ λ · v
(Skalare Multiplikation)
heißt K-Vektorraum, wenn für alle λ, µ ∈ K und v, w ∈ V gilt:
a) (V, +) ist eine kommutative Gruppe.
b) Assozitativität: λ · (µ · v) = (λ · µ) · v
c) Distributivität: (λ + µ) · v = λ · v + µ · v,
λ · (v + w) = λ · v + λ · w
d) 1 · v = v.
Ein Vektorraum ist eine kommutative Gruppe mit einer äußeren Verknüpfung zu
einem Körper. Statt K-Vektorraum sagt man auch Vektorraum über K. Die Elemente
v ∈ V heißen Vektoren, die Elemente λ ∈ K nennt man Skalare. Wir schreiben 0
für den Nullvektor bzw. einfach 0, wenn Verwechselungen mit dem Nullelement des
Körpers K ausgeschlossen werden können.
Beispiel 3.2. Betrachte einige Beispiele zu Vektorräumen.
29
30
3. Vektorräume
• Sei K ein Körper. Die Menge Kn bildet mit den komponentenweise definierten
Operationen


  
    
λx1
x1 + y1
x1
x1
y1

  

 ..   ..  
..
λ ·  ...  =  ... 

 . + . =
.
xn
λxn
xn + yn
xn
yn
einen K-Vektorraum. Da die Operationen komponentenweise definiert sind,
übertragen sich die Rechengesetze von K und die Vektorraumaxiome gelten.
• Sei K ein Körper. Dann ist die Menge der m × n Matrizen Mm,n (K) über
diesem Körper zusammen mit Addition und skalaren Multiplikation ein KVektorraum.
• Die komplexen Zahlen C lassen sich als R-Vektorraum interpretieren. Dabei
ist die Addition die in Kapitel 1 angegebene und die Multiplikation mit einem
Skalar λ ist die Multiplikation einer reellen Zahl mit einer komplexen Zahl:
λ(a + ib) = (λ + i0)(a + ib) = λa + iλb.
• Sei ein X nichtleere Menge und K ein Körper. Dann ist die Menge der
Abbildungen von X nach K
Abb(X, K) := {f | f : X → K }
mit der Addition (f + g)(x) 7→ f (x) + g(x) und der skalaren Multiplikation
(λf )(x) 7→ λf (x) ein K-Vektorraum.
Wir folgern aus den Axiomen des Vektorraums:
Lemma 3.3. In einem K-Vektorraum V gelten folgende Rechenregeln:
a) Für v ∈ V und λ ∈ K gilt 0 · v = λ · 0 = 0.
b) Aus λ · v = 0 mit λ ∈ K und v ∈ V folgt λ = 0 oder v = 0.
c) Für v ∈ V gilt (−1) · v = −v.
Beweis. Seien v ∈ V und λ ∈ K. Aus der Distributivität folgt:
0 + 0 · v = 0 · v = (0 + 0) · v = 0 · v + 0 · v
0 + λ · 0 = λ · 0 = λ · (0 + 0) = λ · 0 + λ · 0.
Da (V, +) eine Gruppe ist, folgt 0 · v = λ · 0 = 0. Sei λ · v = 0 und λ 6= 0. Nach
Definition des Vektorraums ist 1 · v = v. Wir erhalten:
v = 1 · v = (λ−1 λ) · v = λ−1 · (λ · v) = λ−1 · 0.
Aus Eigenschaft a) folgt v = 0. Aufgrund des Distributivgesetzes gilt:
v + (−1) · v = 1 · v + (−1) · v = (1 − 1) · v = 0 · v.
Aus Eigenschaft a) folgt 0 · v = 0, so dass (−1) · v das additive Inverse zu v ist.
Analog zu Untergruppen, -ringen und -körpern definiert man Untervektorräume
und aufbauend auf diesen weitere Teilstrukturen von Vektorräumen.
1. Vektorraum und Untervektorraum
31
Def inition 3.4 (Untervektorraum). Sei V ein K-Vektorraum. Eine nichtleere Teilmenge U ⊆ V heißt Untervektorraum, wenn sie ein K-Vektorraum ist.
Betrachten wir Beispiele von Untervektorräumen:
• Im R2 bilden die Punkte Ga = (x, y)T ∈ R2 y = ax einer Geraden durch
den Ursprung, für ein festes a ∈ R, einen Untervektorraum des R2 .
• Sei K ein Körper. Die Menge UDn (K) der unteren n × n-Dreiecksmatrizen
ist ein Untervektorraum des K-Vektorraums der n × n Matrizen Mm,n (K).
Lemma 3.5. Eine nichtleere Teilmenge U eines K-Vektorraums V ist genau dann
ein Untervektorraum, wenn sie abgeschlossen gegenüber Addition und skalarer Multiplikation ist.
Beweis. Falls U ein Untervektorraum von V darstellt, ist er abgeschlossen gegenüber
Addition und skalarer Multiplikation.
Umgekehrt, angenommen U ⊆ H ist abgeschlossen gegenüber Addition und skalarer Multiplikation. Seien v, w ∈ U und λ ∈ K. Assoziativität, Distributivität und
1 · v = v übertragen sich von V auf U . Bleibt zu zeigen, dass U mit der Addition eine
kommutative Gruppe bildet. Mit u ∈ U ist −1 · u = −u ∈ U , so dass zu u, v ∈ U
auch u − v ∈ U . Aus dem Untergruppenkriterium, Satz 2.17 auf Seite 23, folgt die
Behauptung.
Im R2 ist eine Gerade Ga,b , die nicht durch den Ursprung geht,
Ga,b = (x, y)T ∈ R2 y = ax + b
mit a, b ∈ R und b 6= 0, ein verschobene Untervektorraum“:
” Ga,b = (0, b)T + (x, y)T ∈ R2 y = ax = (0, b)T + Ga .
Wir führen für verschobene Unterräume“ den Begriff des affinen Unterräums ein:
”
Def inition 3.6 (Affiner Unterraum, Richtungsraum, Parallel). Eine Teilmenge A
eines K-Vektorraums V heißt affiner Unterraum, wenn sie leer ist oder es ein a0 ∈ A
und einen Untervektorraum U ⊆ V mit A = a0 + U gibt. Wir nennen
R(A) := U = {x − a0 | x ∈ A } = {x − y | x, y ∈ A }
Richtungsraum von A. Affine Unterräume A und A0 heißen parallel, A k A0 , falls
R(A) ⊆ R(A0 ) oder R(A0 ) ⊆ R(A).
Beachte, dass der Richtungsraum R(A) unabhängig von a0 ist. Wie wir später
sehen werden, sind Geraden die eindimensionalen affinen Unterräume des Kn und die
Hyperebenen die affinen Unterräume des Kn der Dimension n − 1.
Def inition 3.7 (Gerade, Hyperebene). Eine Teilmenge G ⊆ Kn heißt Gerade, falls
es a, a0 ∈ Kn gibt mit
G = a0 + Ka = {a0 + λa | λ ∈ K } .
Eine Teilmenge H ⊆ Kn heißt Hyperebene, falls es a ∈ Kn , a 6= 0, und b ∈ K gibt mit
H = x ∈ Kn aT x = b = Lös(aT , b).
32
3. Vektorräume
Wir können die Lösungsmengen linearer Gleichungssysteme mit der Terminologie
der Vektorräume beschreiben. Sei A ∈ Mm,n (K) und b ∈ Km . Dann ist Lös(A, b) ⊆
Kn ein affiner Unterraum mit dem Richtungsraum Lös(A, 0). Umgekehrt gilt, dass
jeder affine Unterraum Lösungsmenge eines inhomogenen linearen Gleichungssystem
ist. Wir werden den Beweis zu einem späteren Zeitpunkt geben.
2. Lineare Unabhängigkeit, Basen und
Dimension
Schließt man eine Menge von Vektoren aus einem Vektorraum linear ab, ergibt dies
den von diesen Vektoren erzeugten Unterraum. Als erstes führen wir dazu den Begriff
der Linearkombination ein:
Def inition 3.8 (Linearkombination). Sei V ein K-Vektorraum, v1 , . . . , vn ∈ V und
λ1 , . . . , λn ∈ K. Dann heißt der Vektor
n
X
v=
λi vi = λ1 v1 + . . . + λn vn
i=1
eine Linearkombination der Vektoren v1 , . . . , vn .
Beachte, dass eine Linearkombination nur aus endlich vielen Vektoren besteht.
Linearkombinationen, die durch Permutationen der Summanden auseinander hervorgehen, sind gleich. Bildet man zu gegebenen Vektoren alle möglichen Linearkombinationen, heißt dies lineare Hülle:
Def inition 3.9 (Lineare Hülle). Sei V ein K-Vektorraum. Die lineare Hülle (linearer
Abschluß, Erzeugnis oder Spann) von X = {x1 , x2 , . . .} ⊆ V ist
( n
)
X
span(X) :=
λi xi n ∈ N, λi ∈ K, xi ∈ X .
i=1
Für endliche X sei λi = 0 für i > |X|. Andere Schreibweisen für span(X) sind L(X)
und hXi.
Die lineare Hülle einer unendlichen Menge von Vektoren besteht aus den Linearkombinationen aller endlichen Teilmengen dieser Menge. Die lineare Hülle einer
endlichen Menge von Vektoren X = {x1 , . . . , xn } besteht aus allen Linearkombinationen dieser Vektoren:
( n
)
n
X
X
span(X) :=
λi xi λi ∈ K =
Kxi .
i=1
i=1
Die lineare Hülle von Vektoren ist nach Lemma 3.5 ein Untervektorraum, denn
mit u, v ∈ span(X) und λ ∈ K gilt
n
n
n
X
X
X
u+v =
λi xi +
µi xi =
(λi + µi )xi ∈ span(X)
i=1
n
X
λv = λ
i=1
i=1
n
X
λi vi =
i=1
i=1
(λλi )vi ∈ span(X).
2. Lineare Unabhängigkeit, Basen und Dimension
33
Für X = ∅ erhalten wir in Definition 3.9 die leere Summe und als Erzeugnis der leeren
Menge den kleinstmöglichen Untervektorraum: span(∅) = {0}.
Def inition 3.10 (Erzeugendensystem). Sei V ein K-Vektorraum und X ⊆ V . Ein
Erzeugendsystem von span(X) ist eine Teilmenge Y ⊆ X mit span(Y ) = span(X).
Die Definition legt nahe, dass nicht alle Vektoren einer Menge für ihr Erzeugnis
wesentlich sind. Tatsächlich verändert sich die lineare Hülle einer Menge von Vektoren
X nicht, fügt man eine Linearkombination von Vektoren aus X hinzu. Läßt sich der
hinzugefügte Vektor nicht als Linearkombination von Vektoren aus X darstellen, so
verändert seine Hinzunahme die lineare Hülle. Wir führen für diesen Sachverhalt den
Begriff der linearen Unabhängigkeit ein:
Def inition 3.11 (Linear unabhängig). Sei V ein K-Vektorraum. Eine Teilmenge
X = {x1 , . . . , xn } ⊆ V heißt linear unabhängig, falls für λ1 , . . . , λn ∈ K gilt
n
X
λi xi = 0
=⇒
λ1 = . . . = λn = 0.
i=1
X heißt linear abhängig, falls X nicht linear unabhängig ist. Eine unendliche Menge von Vektoren heißt linear unabhängig, wenn jede endliche Teilmenge linear unabhängig ist, und heißt linear abhängig, wenn sie eine endliche linear abhängige Teilmenge enthält. Die leere Menge ist linear unabhängig.
Eine Menge von Vektoren ist linear unabhängig, wenn der Nullvektor nur die
triviale Darstellung hat. Aus der Definition folgt direkt:
Satz 3.12. Sei V ein K-Vektorraum und X = {x1 , . . . , xn } ⊆ V . Dann sind folgende
Aussagen äquivalent:
a) X ist linear unabhängig.
b) Die Darstellung der Null als Linearkombination der xi ist eindeutig.
Pn
c) Für (λ1 , . . . , λn ) ∈ Kn \ {0} ist
i=1 λi xi 6= 0.
Beispiel 3.13. Es gilt:
• Im Kn sind die Vektoren (1, 1, 1), (1, 1, 0), (0, 0, 1) linear abhängig, denn
1 · (1, 1, 1) − 1 · (1, 1, 0) − 1 · (0, 0, 1) = 0
i
• Wir nennen ei := (0, . . . , 0, 1, 0, . . . , 0) ∈ Kn den i-ten kanonischen Einheitsvektor. Die Einheitsvektoren sind linear unabhängig, da jede Komponente einer Linearkombination nur von genau einem der Einheitsvektoren bestimmt
wird; sollen alle Komponenten der Linearkombination 0 sein, müssen daher
auch alle Koeffizienten 0 sein.
• Der Nullvektor ist stets linear abhängig (denn 1 · 0 = 0).
• Seien a = (a1 , a2 ), b = (b1 , b2 ) ∈ R2 . Dann gilt
– a, b sind genau dann linear abhängig, wenn es ein λ ∈ R gibt mit a = λb
oder b = λa.
– a, b sind genau dann linear unabhängig, wenn 4(a, b) = a1 b2 −a2 b1 6= 0.
34
3. Vektorräume
• Die Richtungsräume von Geraden sind genau dann linear abhängig, wenn
die Geraden parallel sind.
Wir zeichnen bestimmte Erzeugendensysteme aus und weisen anschließend nach,
dass diese minimal sind:
Def inition 3.14 (Basis). Sei V ein K-Vektorraum. Eine Teilmenge B ⊂ V heißt
Basis von V , wenn sie ein linear unabhängiges Erzeugendensystem von V ist.
Die Einheitsvektoren bilden offenbar eine Basis des Kn . Wir bezeichnen diese
Basis als die Standardbasis des Kn . Offensichtlich ist die Darstellung eines Vektors
als Linearkombination der Standardbasis eindeutig.
Satz 3.15. Sei V ein K-Vektorraum. B ⊂ V ist genau dann eine Basis von V , wenn
für alle B 0 ( B gilt span(B 0 ) 6= V .
Beweis. Sei V ein K-Vektorraum und B ⊂ V . Wir zeigen beide Richtungen:
Wir zeigen zuerst, falls B eine Basis ist, dann ist B auch ein minimales Erzeugendensystem. Wir beweisen dazu, dass ein Erzeugendensystem, welches nicht minimal ist, auch keine Basis bildet (Beweis durch Kontraposition). Sei B 0 ein Erzeugendensystem mit B 0 ( B und span(B 0 ) = span(B). Dann existiert ein b ∈ B \ B 0
mit P
b ∈ span(B 0 ). Wir stellen b als Linearkombination der Elemente von B 0 dar:
b = ni=1 λi b0i mit b01 , . . . , b0n ∈ B 0 . Damit erhält man eine nicht-triviale Darstellung
der Null
0=b−
n
X
λi b0i
i=1
Also sind b01 , . . . , b0n , b linear abhängig, und B ist keine Basis.
Wir zeigen, falls B ein minimales Erzeugendensystem ist, dann ist B eine Basis. Wir führen dazu einen Beweis durch Kontraposition und beweisen, dass B nicht
minimal ist, wenn B keine Basis ist. Sei B = {b1 , . . . , bn } ⊆ V ein linear abhängiges
ErP
zeugendensystem. Dann gibt es eine nichttriviale Darstellung der Null ni=1 λi bi = 0
mit (λ1 , . . . , λn ) ∈ Kn \ {0}. Wir nehmen o.B.d.A. an,1 dass λ1 6= 0 (sonst benenne
die bi entsprechend um). Dann ist
b1 =
n
X
λi
bi ∈ span(b2 , . . . , bn )
λ1
i=2
B0
und
= {b2 , . . . , bn } bildet ein Erzeugendensystem.2 Wegen B 0 = B \{b1 } ist B nicht
minimal.
Korollar 3.16. Jeder Vektorraum hat eine Basis.
1Ohne Beschränkung der Allgemeinheit: Diese Annahme dient nur der Vereinfachung der folgen-
den Darstellung und kann stets erfüllt werden (z.B. durch Umbennung der Indizes).
2Die Division ist möglich, da der Vektorraum über einem Körper definiert ist.
2. Lineare Unabhängigkeit, Basen und Dimension
35
Für endlich erzeugte Vektorräume folgt Korollar 3.16 unmittelbar aus Satz 3.15. Für
unendlich erzeugte Vektorräume benötigt man zusätzlich das Lemma von Zorn: In
der Menge der linear unabhängigen Teilmengen gibt es ein maximales Element.
Satz 3.17. Sei V ein K-Vektorraum, I eine Indexmenge und B = {bi | i ∈ I } ⊂ V
eine Basis von V . Dann hat jedes v ∈ V genau eine endliche Darstellung
X
v=
λ i bi
mit λi ∈ K.
i∈I
Da zu einer gegebenen, geordneten3 Basis B jeder Vektor v eine eindeutige Darstellung als Linearkombination der Basisvektoren hat, sind die Koeffizienten λi dieser
Darstellung eindeutig festgelegt. Man nennt λ := (λi | i ∈ I) den Koordinatenvektor
von v bezüglich der Basis B und schreibt:
X
v = Bλ =
λ i bi .
i∈I
Beweis. Wir führen den Beweis zu zu Satz 3.17 durch Widerspruch. Sei V ein KVektorraum und B = {b1 , . . . , bn , . . .} ⊂ V eine Basis von V . Angenommen, es gäbe
zwei unterschiedliche Darstellungen eines Vektors v ∈ V
n
X
i=1
λ i bi =
n
X
λ0i bi
i=1
Pn
0
Dann ist
mit (λ1 , . . . , λn ) 6=
i=1 (λi − λi )bi = 0 eine nicht-triviale
Darstellung der Null und B keine Basis — Widerspruch zur Annahme.
(λ01 , . . . , λ0n ).
In Aufgabe 5.2 zeigen wir, dass Vektorraum-Isomorphismen Basen auf Basen abbilden:
Satz 3.18. Seien V1 , V2 K-Vektorräume und ψ : V1 → V2 ein Isomorphismus. Dann
gilt:
a) Genau dann sind ψ(v1 ), . . . , ψ(vm ) ∈ V2 linear unabhängig, wenn v1 , . . . , vn ∈
V1 linear unabhängig sind.
b) Genau dann bilden ψ(b1 ), . . . , ψ(bn ) eine Basis von V2 , wenn b1 , . . . , bn eine
Basis von V1 darstellen.
Die bisherigen Überlegungen gelten sowohl für endlich erzeugte als auch für unendlich erzeugte Vektorräume. Im weiteren beschränken wir uns auf endlich erzeugte
Vektorräume. Für diese formulieren wir das folgende Lemma:
Lemma 3.19. Sei V ein K-Vektorraum mit Basis B = {b1 , . . . , bn }.Dann ist V ∼
= Kn .
P
Beweis. Da jedes v ∈ V eine eindeutige Darstellung v = ni=1 λi bi mit λ1 , . . . , λn ∈
K hat, ist die Abbildung ψ : Kn → V mit f (λ) := Bλ bijektiv. Weil ψ ein Homomorphismus von Vektorräumen ist, folgt die Behauptung.
3D.h. die Reihenfolge der Vektoren in der Basis ist fixiert.
36
3. Vektorräume
Unser Ziel ist es zu zeigen, dass alle Basen von V dieselbe Mächtigkeit haben.
Wir werden für diese Zahl den Begriff der Dimension des Vektorraums in Definition
3.23 einführen.
Satz 3.20. Je n linear unabhängige Vektoren des Kn bilden eine Basis des Kn .
Beweis. Seien a1 , . . . , an ∈ Kn linear unabhängige Vektoren. Es ist zu zeigen, dass
diese Vektoren ein Erzeugendensystem des Kn sind, also span(a1 , . . . , an ) = Kn . Da
span(a1 , . . . , an ) ⊆ Kn trivialerweise gilt, bleibt Kn ⊆ span(a1 , . . . , an ) nachzuweisen.
Dies gilt, wenn die Matrix mit den Spalten a1 , . . . , an
A = a1 · · · an ∈ Mn,n (K)
invertierbar ist. Denn wenn es ein multiplikatives Inverses A−1 ∈ Mn,n (K) zu A gibt,
ist x = A−1 b für jedes b ∈ Kn eine Lösung des linearen Gleichungssystems Ax = b
und damit läßt sich jeder Vektor b ∈ Kn als Linearkombination der Spalten a1 , . . . , an
von A (mit Koeffizienten x1 , . . . , xn ) darstellen.
Wir zeigen die Invertierbarkeit von A. Nach Übungsaufgabe 2.4 gibt es Permutationsmatrizen P1 , P2 ∈ Mn,n (K), so dass das Gauß-Verfahren auf P1 AP2 ohne
Zeilen- und Spaltenvertauschungen auskommt. Nach Satz 1.16 auf Seite 12 gibt es
T = (ti,j ) ∈ UDn mit t11 = · · · = tnn = 1, B ∈ ODn , so dass
P1 AP2 = T B.
Es genügt zu zeigen, dass es zu B eine inverse Matrix B −1 gibt, denn dann hat
A = P1−1 T BP2−1 die Inverse A−1 = P2 B −1 T −1 P1 .
Sei O.B.d.A. P1 = P2 = In . Wir zeigen durch Widerspruch, dass für B = (bij )
gilt
b11 b22 · · · bnn 6= 0,
so dass nach Übungsaufgabe 4.2 ein Inverses B −1 existiert. Angenommen, es gäbe ein
i mit bii = 0. Wähle das maximale i mit bii = 0:
i

∗

0

.
 T
 ..
b1

.
 .. 
.
B =  .  = i
.

bTn
 ...

.
.
.
0
∗
..
.
..
.
···
···
..
.
∗
..
.
···
···
..
···
···
.
0
..
.
···
..
.
bi+1,i+1
..
.
···
..
.
..
.
0
∗
..
.
..
.
..
.
..
.















∗ 
bn,n
Dann gilt
bTi
=
n
X
j=i+1
λj bTj
mit λi+1 , . . . , λn ∈ K,
(8)
2. Lineare Unabhängigkeit, Basen und Dimension
37
denn mit

bi+1,i+1 ∗

..
 0
.
B0 = 
 ..
.
..
 .
0
···
und
b0 Ti
···
..
.
..
.
0

∗
.. 
. 


∗ 
bn,n
= (bi,i+1 , . . . , bi,n ) ist
T
T
b0 i = x0 B 0
lösbar durch x0 T = b0 Ti B −1 . Dabei existiert B −1 wegen bi+1,i+1 · · · bn,n 6= 0.
Andererseits sind bT1 , . . . , bTn linear unabhängig, denn wegen A = T B gilt T −1 aTi =
bTi . Da aT 7→ T aT Homomorphismus von Vektorräumen ist und die Umkehrabbildung
aT 7→ T aT ebenfalls, ist aT 7→ T −1 aT Isomorphismus von Vektorräumen. Damit folgt
aus der linearen Unabhängigkeit von aT1 , . . . , aTn , dass b1 , . . . , bn linear unabhängig sind
im Widerspruch zu (8). Also ist b11 · · · bnn 6= 0 und B und A sind invertierbar.
Lemma 3.21. Es gilt Kn ∼
= Km genau dann, wenn n = m.
∼ Km . Umgekehrt zeigen wir, dass Kn ∼
Beweis. Aus n = m folgt unmittelbar Kn =
=
m
m
n
∼
K impliziert n = m. Angenommen, es sei K = K für m < n. Dann gäbe es
einen Vektorraum-Isomorphismus ψ : Kn → Km und die Bilder {ψ(e1 ), . . . , ψ(en )}
der Standardbasis e1 , . . . , en des Kn wären gemäß Satz 3.18 linear unabhängig. Nach
Satz 3.20 ist andererseits ψ(e1 ), . . . , ψ(em ) Basis des Km . Widerspruch, da alle Basen
eines Vektorraums die gleiche Länge haben.
Lemma 3.22. Sei V ein K-Vektorraum. Dann sind folgende Aussagen äquivalent:
a) V ∼
= Kn .
b) Jede Basis von V hat die Mächtigkeit n.
c) Die Maximalzahl linear unabhängiger Vektoren in V ist n.
Beweis. Die Äquivalenz a) ⇐⇒ b) folgt aus den Lemmata 3.19 und 3.21.
Wir zeigen die Äquivalenz b) ⇐⇒ c). Seien {b1 , . . . , bm } linear unabhängige
Vektoren, so dass m maximal ist. Dann gilt span({b1 , . . . , bm }) = V , denn jeder
Vektor v ∈ V \ span({b1 , . . . , bm }) ist linear unabhängig von {b1 , . . . , bm }. Somit ist
b1 , . . . , bm eine Basis von V . Es folgt m = n, wobei n durch die Äquivalenz von a)
und b) eindeutig erklärt ist.
Alle Basen eines endlich erzeugten Vektorraums haben die gleiche Mächtigkeit.
Wir nennen diese Zahl die Dimension des Vektorraums. Da die Dimension endlich erzeugter Vektorräume eine natürliche Zahl ist, nennt man solche Vektorräume endlich
dimensional.
Def inition 3.23 (Dimension). Sei V ein K-Vektorraum mit V ∼
= Kn . Dann heißt
dim V := n die Dimension von V .
Der Begriff der linearen Unabhängigkeit liefert ein Kriterium für die Invertierbarkeit von Matrizen:
38
3. Vektorräume
Satz 3.24 (Invertierbarkeitskriterium für Matrizen). Für quadratische Matrizen A ∈
Mn,n (K) sind folgende Aussagen äquivalent:
a) A ∈ GLn (K), d.h. A ist invertierbar.
b) AT ∈ GLn (K), d.h. AT ist invertierbar.
c) Die Zeilen (Spalten) von A sind linear unabhängig.
Beweis. Betrachten wir die Äquivalenz a) ⇐⇒ b). Sei A invertierbar. Dann gibt
es ein A−1 ∈ Mn,n (K) mit AA−1 = In . Es gilt (AA−1 )T = InT = In und somit
(A−1 )T AT = In . Also (AT )−1 = (A−1 )T . Die Rückrichtung folgt mit (AT )T = A und
der gleichen Argumentation.
Wir weisen die Äquivalenz a) ⇐⇒ c) nach. Im Beweis zu Satz 3.20 wurde gezeigt,
dass A invertierbar ist, wenn die Zeilen von A linear unabhängig sind. Für reguläre
A hat das homogene lineare Gleichungssystem Ax = 0 nur die triviale Lösung x = 0,
denn die Abbildung ψ : x 7→ Ax ist invertierbar ψ −1 : y 7→ A−1 y. Andererseits gilt:
aT1 , . . . , aTn sind linear abhängig ⇐⇒ Ax = 0 für ein x ∈ Kn \ {0}.
Also folgt, dass aT1 , . . . , aTn linear unabhängig sind.
Linear unabhängige Vektoren können zu einer Basis ergänzt werden. Wir beginnen
mit der Existenz einer solchen Ergänzung:
Satz 3.25 (Basisergänzungssatz). Sei V ein K-Vektorraum mit n := dim V und
U ⊆ V ein Untervektorraum von V mit m := dim U . Dann kann man jede Basis
{b1 , . . . , bm } von U zu einer Basis {b1 , . . . , bm , . . . , bn } von V erweitern.
Beweis. Wir führen den Beweis durch vollständige Induktion nach k := n − m:
• Die Induktionsverankerung erfolgt für k = 0, indem wir zeigen, dass jede
Basis von U auch Basis von V ist, d.h. U = V . Dies gilt nach Satz 3.20 für
V = Kn und damit wegen V ∼
= Kn für jedes V .
• Der Induktionsschritt erfolgt von k − 1 nach k. Wir wählen bm+1 ∈ V \ U .
Dann sind {b1 , . . . , bm+1 } linear unabhängig. Sei U 0 = span(b1 , . . . , bm+1 ).
Die Induktionsannahme gilt für U 0 und V wegen dim V − dim U 0 = k − 1.
Also gibt es {bm+2 , . . . , bn } so dass {b1 , . . . , bn } Basis von V ist.
Dies war zu zeigen.
Aus dem Beweis des Basisergänzungssatzes folgt:
Korollar 3.26 (Austauschsatz von Steinitz). Sei BV Basis von V . Dann kann man
im Basisergänzungssatz 3.25 die Vektoren bm+1 , . . . , bn in BV wählen.
Beweis. Es gibt ein bm+1 ∈ BV so dass {b1 , . . . , bm , bm+1 } linear unabhängig ist.
Damit kann bm+1 im Induktionsschritt in BV gewählt werden.
In Anlehnung an den Satz über die Mächtigkeit der Vereinigung zweier endlicher
Mengen |X ∪ Y | = |X| + |Y | − |X ∩ Y | formulieren wir einen Satz über die Dimension
der Summe U + V := {u + v | u ∈ U, v ∈ V } zweier Untervektorräume U, V :
2. Lineare Unabhängigkeit, Basen und Dimension
39
Satz 3.27 (Dimensionssatz). Sei W ein K-Vektorraum und U, V ⊆ W Untervektorräume von W . Dann gilt
dim(U + V ) = dim U + dim V − dim(U ∩ V ).
Beweis. Wir führen einen direkten Beweis. Sei B eine Basis von U ∩ V . Nach Satz
3.25 gibt es Basen B ∪ B 0 von U sowie B ∪ B 00 von V . Wir zeigen, dass B ∪ B 0 ∪ B 00
eine Basis von U + V ist. Wegen span(B ∪ B 0 ) = U und span(B ∪ B 00 ) = V gilt
U + V = span(B ∪ B 0 ∪ B 00 ).
Sei
X
λ i bi +
bi ∈B
X
λ0i b0i +
b0i ∈B0
X
λ00i b00i = 0.
=−
X
00
b00
i ∈B
Dann ist
U3
X
λ i bi +
X
λ0i b0i
λ00i b00i ∈ V
P 00 00
und
λi bi ∈ U ∩ V . Andererseits ist B ∪ B00 linear unabhängig und B eine Basis
von U ∩ V . Aufgrund der Eindeutigkeit der Darstellung sind somit alle λ00i = 0. Aus
Symmetriegründen sind alle λ0i = 0. Weil B eine Basis ist, sind alle λi = 0, und der
Nullvektor hat nur die triviale Darstellung. Damit ist B ∪ B 0 ∪ B 00 linear unabhängig.
Weil B, B 0 , B 00 paarweise disjunkt sind gilt:
|B ∪ B 0 ∪ B 00 | = |B ∪ B 0 | + |B ∪ B 00 | −
|B|
dim(U + V ) = dim U + dim V
− dim(U ∩ V ).
Dies war zu zeigen.
Kapitel 4
Polynome
In diesem Abschnitt lernen wir den Vektorraum und Ring der Polynome kennen. Wir
betrachten Polynome dabei als formale, algebraische Objekte.
1. Vektorraum und Ring der Polynome
Sei K ein Körper und X ∈
/ K ein Symbol, das wir Unbestimmte nennen. Für i ∈ N
i
bezeichne X die i-te Potenz von X, also
X i := XX
. . . X} .
| {z
i Faktoren
Zusätzlich sei X 0 := 1. Das Symbol X verhält sich wie ein Körperelement, d.h. zum
Beispiel ist die Multiplikation von X i mit einem Körperelement λ ∈ K kommutativ,
also X i ·λ = λ·X i . Wir suchen nicht, wie bei einem linearen Gleichungssystem Ax = b,
eine Lösung x, sondern betrachten X als formales Objekt. Um diesen Unterschied
hervorzuheben, verwenden andere Autoren als Unbestimmte statt X alternativ t oder
τ.
Def inition 4.1 (Polynom). Sei K ein Körper und X ∈
/ K ein Symbol. Ein Polynom
p(X) über K ist eine endliche (formale) Potenzreihe der Form
2
n
p(X) := p0 + p1 X + p2 X + · · · + pn X =
n
X
pi X i
i=0
mit Koeffizienten p0 , p1 , . . . , pn ∈ K. Der Vektor
koeffvekn (p) := (p0 , p1 , . . . , pn ) ∈ Kn+1
heißt der Koeffizientenvektor des Polynoms p(X). Als Nullpolynom bezeichnet man
das Polynom, dessen Koeffizienten alle Null sind.
P
Meist schreibt man kurz p statt p(X) und läßt bei der Darstellung ni=0 pi X i
diejenigen Monome pi X i weg, deren Koeffizienten pi gleich Null sind. Für das Nullpolynom schreiben wir einfach 0.
41
42
4. Polynome
Beispiel 4.2. Wir betrachten einige Beispiele von Polynomen über R:
u = 9 − 2X 2
koeffvek2 (u) = (9, 0, −2)
2
v = 1 + 2X + 4X + 16X
4
koeffvek5 (v) = (1, 2, 4, 0, 16, 0)
w=X
koeffvek1 (w) = (0, 1)
Pn
Def inition 4.3 (Grad eines Polynoms). Sei p(X) = i=0 pi X i ein Polynom ungleich
dem Nullpolynom. Der Grad deg p des Polynoms p ist gleich dem maximalen Index k
mit pk 6= 0:
deg p = max {i ∈ N0 | pi 6= 0 } .
Für das Nullpolynom definieren wir deg 0 := −∞. Das Nullpolynom und Polynome
mit Grad 0 werden als konstante Polynome bezeichnet.
Manche Autoren setzen deg 0 := 0, allerdings muß dann in der Gradformel, die
wir später kennenlernen, der Fall der Nullpolynome gesondert betrachtet werden. Die
Rechenregeln für −∞ sind einprägsam, interpretiert man −∞ als kleiner als jede
”
Zahl“, so dass für alle z ∈ R gilt
−∞ + z = −∞
z + (−∞) = −∞
−∞ + (−∞) = −∞.
und −∞ < z. Einige Beispiele sollen die Definition des Grads von Polynomen verdeutlichen:
Beispiel 4.4. Für die Polynome u, v, w über R gilt:
u = X + 7X 2 + 0 · X 5
deg u = 2
v = 1 + 2X + X 3 + 3X 4
deg v = 4
w=X
deg w = 1
Pn
i
Zu einem Polynom p(X) =
i=0 pi X vom Grad n ≥ 1 heißt der Koeffizient
pn der führende Koeffizient von p. Ist der führende Koeffizient 1, heißt das Polynom
normiert. Von den drei Polynomen in Beispiel 4.4 ist nur w ein normiertes Polynom,
der führende Koeffizient von u ist 7, der von v gleich 3.
P
Def inition
von Polynomen). Zwei Polynome p(X) = ni=0 pi X i und
Pm 4.5 (Gleichheit
q(X) = i=0 qi X i über einem Körper K sind gleich, wenn deg p = deg q und pi = qi
für i = 0, 1, . . . , deg p.
Zur Definition ist äquivalent, dass zwei Polynome p, q über einem Körper K genau
dann gleich sind, wenn für t := max{deg p, deg q, 0}
koeffvekt (p) = koeffvekt (q)
1. Vektorraum und Ring der Polynome
43
in Kt+1 übereinstimmen.1 Insbesondere entspricht jeder Koeffizientenvektor einem
eindeutig bestimmten Polynom und umgekehrt:
Lemma 4.6. Sei K ein Körper und K[X]n die Menge aller Polynome über K mit
Grad kleiner oder gleich n. Dann ist die Abbildung
koeffvekn : K[X]n → Kn+1 ,
n
X
pi X i 7→ (p0 , p1 , . . . , pn )
i=0
bijektiv.
Beweis. Aus der Vorüberlegung folgt, dass die Abbildung koeffvekn injektiv ist,
d.h. für alle p(X), q(X) ∈ K[X]n mit koeffvekn (p) = koeffvekn (q) gilt auch die Gleichheit p(X) = q(X) der Polynome. Die Abbildung
ist ebenfalls surjektiv, denn für alle
P
a = (a0 , a1 , . . . , an ) ∈ Kn+1 ist p(X) = ni=0 ai X i ein Polynom mit koeffvekn (p) =
a.
P
P
Zu zwei Polynomen p(X) = ni=0 pi X i und q(X) = ni=0 qi X i über einem Körper K
definieren wir die Summe als
n
X
p(X) + q(X) :=
(pi + qi )X i
i=0
und, da es sich ebenfalls um ein Polynom handelt, schreibt man kurz (p + q)(X). In
Form der Koeffizientenvektoren bedeutet die Addition:
koeffvekn (p + q) = koeffvekn (p) + koeffvekn (q)
Wir führen zusätzlich die Multiplikation mit Körperelementen λ ∈ K ein (Skalarmultiplikation):
λ · p(X) :=
n
X
(λ · pi )X i .
i=0
Da es sich ebenfalls um ein Polynom handelt, schreibt man kurz (λp)(X). In Form
der Koeffizientenvektoren bedeutet die Multiplikation mit einem Skalar λ:
koeffvekn (λp) = λ · koeffvekn (p).
Beispiel 4.7. Betrachten wir ein Beispiel mit den beiden Polynomen p = X 2 und
q = 3X + X 2 + 2X 3 über R:
3 · p + 4 · q = (3X 2 ) + (12X + 4X 2 + 8X 3 ) = 12X + 7X 2 + 8X 3 .
Der Grad der Summe zweier Polynome p und q ist offenbar höchstens so groß wie das
Maximum von deg p und deg q. Er kann aber auch kleiner sein, wenn beide Polynome
den gleichen Grad haben und die Summe beider führender Koeffizienten Null ist. Zum
Beispiel:
(1 + X 2 ) + (1 − X 2 ) = 2.
1Beachte: Für p(X) = q(X) = 0 ist t = 0.
44
4. Polynome
Bei der Skalarmultiplikation bleibt der Grad des Polynoms erhalten, sofern der Skalar
nicht die Null ist.
Korollar 4.8. Sei K ein Körper, p, q Polynome über K und λ ∈ K \ {0}. Dann gilt:
deg(p + q) ≤ max{deg p, deg q}
deg(λp) = deg p.
Für λ = 0 ist deg(λp) = −∞.
Betrachten wir die Menge der Polynome mit beschränktem Grad, so ist diese unter
Addition und Multiplikation mit Skalaren abgeschlossen und bildet einen Vektorraum:
Satz 4.9 (Vektorraum der Polynome). Sei K ein Körper und K[X]n die Menge aller
Polynome über K mit Grad kleiner oder gleich n. Mit der Addition und der skalaren
Multiplikation ist K[X]n ein K-Vektorraum der Dimension n + 1.
Beweis. Die Koeffizientenfunktion koeffvekn : K[X]n → Kn+1 ist nach Lemma 4.6
bijektiv. Zusätzlich hat die Abbildung die homomorphen Eigenschaften
koeffvekn (p + q) = koeffvekn (p) + koeffvekn (q)
koeffvekn (λ · p) = λ · koeffvekn (p),
so dass K[X]n isomorph zum Vektorraum Kn+1 der Dimension n + 1 ist.
Eine Basis des K-Vektorraums K[X]n bilden die Polynome 1, X, X 2 , . . . , X n , denn:
Pn
i
a) Jedes Polynom p(X) =
i=0 pi X kann man als Linearkombination der
2
n
Polynome 1, X, X , . . . , X mit Koeffizienten aus K, nämlich p0 , p1 , . . . , pn ,
schreiben.
P
b) Die Polynome 1, X, X 2 , . . . , X n sind linear unabhängig, weil aus ni=0 λi Xi =
0 (beachte, 0 steht für das Nullpolynom) mit λ0 , λ1 , . . . , λn ∈ K und der Definition der Gleichheit von Polynomen folgt, dass λ0 = · · · = λn = 0 gilt.
Wir können diese Basis auch aus dem Isomorphismus koeffvekn : K[X]n → Kn+1
ableiten, da nach Satz 3.18 auf Seite 35 Isomorphismen Basen auf Basen abbilden.
Def inition 4.10
Das Produkt p(X) · q(X) zweier PolyP (Produkt von Polynomen).
P
i ist definiert als:
nome p(X) = ni=0 pi X i und q(X) = m
q
X
i=0 i
p(X) · q(X) :=
n+m
i
X X
i=0
k=0
i
pk qi−k X =
n+m
X
i=0
X
pk q l X i .
k+l=i
Dieses Produkt, man nennt es auch Konvolution oder Faltung, ist ebenfalls ein Polynom, für dass wir kurz (p · q)(X) schreiben. Die Koeffizienten u0 , u1 , . . . , un+m des
1. Vektorraum und Ring der Polynome
45
Produkts u(X) = p(X) · q(X) bestehen aus den Summen
u 0 = p0 q 0
u 1 = p0 q 1 + p1 q 0
u 2 = p 0 q 2 + p 1 q 1 + p2 q 0
..
.
un+m−2 = pn−2 qm + pn−1 qm−1 + pn qm−2
un+m−1 = pn−1 qm + pn qm−1
un+m = pn qm .
Die Summen sind symmetrisch: Vertauschen von p(X) und q(X) ändert nicht das
Produkt, da die Multiplikation im Körper kommutativ ist. Die Polynommultiplikation
ist daher ebenfalls kommutativ.
Die Konvolution entspricht genau dem Produkt, faßt man beide Polynome als
Summen mit der Variablen X auf:
X
X
X
n
m
n
n
n
X
X
pi X i ·
qi X i =
q 0 pi X i +
q1 pi X i+1 + · · · +
qm pi X i+m
i=0
i=0
i=0
i=0
i=0
Nach Ordnen der Monome erhalten wie die Formel zur Polynommultiplikation.
Satz 4.11 (Gradformel für Polynome). Seien p(X) und q(X) Polynome über einem
Körper. Dann gilt für den Grad des Produktes
deg(p · q) = deg p + deg q.
Beweis. Sei u = p · q das Produkt der beiden Polynome: Nehmen wir zunächst an, p
und q seien ungleich dem Nullpolynom. Mit
p(X) =
deg
Xp
pi X i
und q(X) =
i=0
deg
Xq
qi X i
i=0
folgt aus der Definition der Konvolution
u=
deg X
p+deg q X
i
i=0
pk qi−k X i
k=0
dass deg(p · q) ≤ deg p + deg q gilt. Wegen
6=0
udeg p+deg q
6=0
z }| { z }| {
= pdeg p · qdeg q 6= 0
ist der Grad von u mindestens deg p + deg q, so dass die Gleichheit gilt.2 Falls p oder q
das Nullpolynom ist, trifft dies auch auf das Produkt u zu und die Behauptung folgt
aus den Rechenregeln für −∞.
2Beachte: Der Schluß, dass das Produkt ungleich Null ist, wenn beide Faktoren ungleich Null
sind, gilt in einem Ring im allgemeinen nicht.
46
4. Polynome
Aus der Gradformel folgt, dass K[X]n kein Ring ist, denn zu p ∈ K[X]n mit deg p = n
gilt p · p ∈
/ K[X]n wegen deg(p · p) = 2n. Beschränken wir aber nicht den Grad der
Polynome, erhält man einen Ring:
Satz 4.12 (Polynomring). Sei K ein Körper. Dann ist die Menge K[X] aller Polynome über K ein kommutativer, nullteilerfreier Ring mit Eins.
Die Körperelemente K bettet man als konstante Polynome in den Ring K[X] ein und
schreibt K für die Menge der konstanten Polynome des Ringes K[X].
Beweis. Summe und Produkt zweier Polynome sind ebenfalls Polynome, so dass zu
zeigen ist:
a) (K[X], +) ist eine abelsche Gruppe.
b) Die Multiplikation ist assoziativ und kommutativ, es existiert ein Einselement.
c) Distributivgesetze: Für alle u, v, w ∈ K[X] gilt Linksdistributivität:
u(v + w) = u · v + u · w.
Wegen der Kommutativität der Multiplikation gilt damit auch Rechtsdistributivität:
(v + w)u = v · u + w · u.
Die Nullteilerfreiheit folgt aus der Gradformel (Satz 4.11). Man rechnet leicht nach,
dass (K[X], +) eine abelsche Gruppe ist. Das neutrale Element bezüglich der Addition
ist das Nullpolynom.
Die Multiplikation ist wie bereits gezeigt kommutativ, und das neutrale Element
bezüglich der Multiplikation ist das konstante Polynom p(X) = 1. Für den Nachweis
der Assoziativität betrachten wir den i-ten Koeffizienten des Produkts u(vw):
=(v·w)j
}|
z
{
X
X X
X
vs wt =
ur vs wt
ur
r+j=i
s+t=j
(Assoziativität von (K, ·))
r+j=i s+t=j
=
X
ur vs wt
r+s+t=i
=
X X
ur vs ·wt .
|
}
j+t=i
r+s=j
{z
=(u·v)j
Dieser stimmt mit dem i-ten Koeffizienten des Produkts (uv)w überein. Die einzelnen
Koeffizienten der beiden Polynome u(vw) und (uv)w sind identisch, so dass (uv)w =
u(vw) für alle u, v, w ∈ K[X] gilt.
Für den Nachweis des Distributivgesetzes betrachten wir den i-ten Koeffizienten
von u(v + w) und verwenden, dass im Körper das Distributivgesetz gilt:
X
X
X
X
ur (vs + ws ) =
(ur vs + ur ws ) =
ur vs +
ur ws
r+s=i
r+s=i
r+s=i
r+s=i
1. Vektorraum und Ring der Polynome
47
Dieser stimmt mit dem i-ten Koeffizienten der Summe uv + uw überein und wir
erhalten u(v + w) = u · v + u · w für alle u, v, w ∈ K[X].
In der Schule lernt man bereits Polynome kennen, genauer
Polynomfunktionen. Statt
P
als formale, endliche Potenzreihe faßt man p(X) = ni=0 pi X i als Funktion p : R → R
mit
p:
x 7→ p(x) :=
n
X
pi xi ∈ R
i=0
auf. Diese Anschauung als Funktionen unterscheidet sich aber von unserer Betrachungsweise. Zum Beispiel können zwei Polynome p, q ∈ K[X] verschieden sein, auch
wenn die zugehörigen Polynomfunktionen identisch sind, also p(x) = q(x) für alle
x ∈ K gilt. Sei zum Beispiel K = Z2 , d.h. Addition und Multiplikation erfolgen
modulo 2, und betrachte das Polynom p(X) = X 2 +2 X ∈ Z2 [X]:
p(0) = 02 +2 0 = 0
p(1) = 12 +2 1 = 0.
Obwohl die Werte der zugehörigen Polynomfunktion mit der des Nullpolynoms übereinstimmt, sind für uns beide Polynome nicht gleich.
Die Polynomfunktion p : x 7→ p(x) ist kein Körperhomomorphismus, denn zum
Beispiel für K = R und p(X) = X 2 gilt p(1 + 2) 6= p(1) + p(2). Wir erhalten aber
einen Einsetzungshomomorphismus, wenn man die Stelle x fixiert und als Argument
Polynome wählt:
Satz 4.13 (Einsetzungshomomorphismus). Sei K[X] ein Polynomring und x ∈ K ein
Körperelement. Dann ist die Abbildung
X
ϕx : K[X] → K, p(X) 7→ p(x) :=
pi xi
i≥0
ein Ringhomomorphismus, den man Einsetzungshomomorphismus nennt.
Beweis. Wir müssen die beiden Homomorphie-Eigenschaften Additivität und Homogenität nachweisen. Seien p, q ∈ K[X] mit
p(X) =
n
X
pi X
i
und q(X) =
i=0
m
X
qi X i .
i=0
Zum Nachweis der Additivität sei o.B.d.A. m = n (erweitere gegebenenfalls das Polynom geringeren Grades um die entsprechenden Monome mit Koeffizient Null). Es
gilt
ϕx (p + q) =
n
X
i=0
(pi +K qi )xi =
n
X
i=0
pi xi +K
n
X
i=0
qi xi = ϕx (p) + ϕx (q),
48
4. Polynome
wegen des Distributivgesetzes in K. Analog zeigt man die Homogenität ϕx (p · q) =
ϕx (p) · ϕx (q):
X
X
n
m
i
i
ϕx (p) · ϕx (q) =
pi x ·
qi x
i=0
=
=
n
X
i=0
pi q0 xi +
i=0
n+m
i
X X
i=0
n
X
pi q1 xi+1 + · · · +
i=0
n
X
pi qm xi+m
i=0
pk qi−k xi
k=0
= ϕx (p · q).
Wir haben das Distributivgesetz verwendet und dass Addition und Multiplikation in
K kommutativ sind. An welchen Stellen?
Wir haben Polynome über einem Körper K betrachtet. Allgemeiner definiert man
Polynome über kommutativen Ringen R mit Eins. Analog zu Satz 4.12 zeigt man,
dass R[X] ebenfalls ein kommutativer Ring mit Eins ist. Dann gilt aber im allgemeinen
deg(p · q) ≤ deg p + deg q,
denn es ist möglich, dass das Produkt beider führender Koeffizienten Null ist (zum
Beispiel 2X · 2X 2 ∈ Z4 [X]). Falls R Nullteiler enhält, so auch der Polynomring R[X].
Ein bekanntes Beispiel für Polynomringe über einem Ring ist der Ring Z[X] aller
Polynome mit ganzzahligen Koeffizienten. Für diesen Ring Z[X] gilt aber weiterhin
die Gleichheit bei der Gradformel — Warum?
2. Division mit Rest
Wir haben bereits in Kapitel 2.5 die Division mit Rest im Ring Z kennengelernt. Zu
a ∈ Z, b ∈ Z \ {0} existieren eindeutig bestimmte Zahlen q, r ∈ Z mit
a = qb + r
und 0 ≤ r < |b|.
Die Zahl r heißt Divisionsrest. Ein analoges Resultat leiten wir für den Polynomring
K[X] her, wobei man statt des Absolutbetrags den Grad des Polynoms verwendet.
Satz 4.14 (Polynomdivision). Sei K ein Körper und K[X] ein Polynomring sowie
a, b ∈ K[X] und b nicht das Nullpolynom. Dann existieren eindeutig bestimmte Polynome q, r ∈ K[X] mit
a = qb + r
und
deg r < deg b.
Beweis. Da b nicht das Nullpolynom ist, gilt deg b ≥ 0. Wir beweisen die Aussage
in zwei Schritten:
(1) Zunächst zeigen wir die Existenz und anschließend,
(2) dass die Polynome q, r ∈ K[X] eindeutig bestimmt sind.
Die erste Behauptung ist offensichtlich, wenn deg a < deg b, da dann q = 0 und r = a
die Bedingung erfüllen. Wir zeigen durch Induktion über deg a, dass die Aussage auch
für deg a ≥ deg b ≥ 0 gilt.
2. Division mit Rest
49
• Verankerung: Sei deg a = 0, also a(X) = a0 . Wegen deg b ≤ deg a und b 6= 0
hat das Polynom b die Form b(X) = b0 . Setze q := a0 b−1
0 und r = 0.
• Induktionsschritt: Sei n := deg a > 1 und m := deg b ≤ n. Wir nehmen an,
die Behauptung sei bereits für alle Polynome a0 , b ∈ [X] mit deg a0 < n gezeigt und belegen die Behauptung für n. Nach Induktionsannahme existieren
zu a0 , b ∈ K[X] mit deg a0 < n Polynome q 0 , r0 ∈ K[X] mit
a0 = q 0 b + r0
und deg r0 < deg b.
n−m und a0 := a − q 00 b. Man rechnet leicht nach, daß
Setze q 00 := an b−1
m X
deg(q 00 b) = n sowie die beiden Polynome q 00 b und a den gleichen führenden
Koeffizienten an haben. Dieser hebt sich in der Differenz a0 = a − q 00 b weg,
so dass deg a0 < n gilt.
Auf dieses Polynom a0 wenden wir die Induktionsannahme an. Es gibt
Polynome q 0 , r0 ∈ K[X] mit
a0 = q 0 b + r
und deg r0 < deg b.
Es gilt
a = q 00 b + a0 = q 00 b + q 0 b + r = (q 00 + q 0 )b + r0
wobei deg r0 < deg b. Mit q := q 00 + q 0 und r := r0 erhalten wir die Behauptung.
Es ist noch die Eindeutigkeit nachzuweisen. Seien q, r, q 0 , r0 ∈ K[X] Polynome mit
a = qb + r
a = q 0 b + r0
und deg r < deg b
und deg r0 < deg b.
Wir zeigen q = q 0 und r = r0 . Aus 0 = a − a = qb + r − (q 0 b + r) erhält man:
(q − q 0 )b = r − r0 .
Wegen deg(r − r0 ) ≤ max{deg r, deg r0 } < deg b ist der Grad des Polynoms (q − q 0 )b
kleiner als der des Polynoms b. Aus der Gradformel für Polynome
deg(q − q 0 ) + deg(b) = deg((q − q 0 )b) < deg b
ergibt sich deg(q − q 0 ) = −∞ oder äquivalent, daß q − q 0 das Nullpolynom ist. Also
ist q = q 0 und r = a − qb = a − q 0 b = r0 .
Betrachten wir ein Beispiel zur Division mit Rest:
Beispiel 4.15. Wir wollen das Polynom X 5 durch X 2 − 1 über einem beliebigem
Körper dividieren.
X5
: (X 2 − 1) = (X 2 − 1) · (X 3 + X) + X
5
3
X −X
X3
X3 − X
X
50
4. Polynome
Man kann zeigen, dass der Divisionrest von X k durch (X n − 1) gleich X k mod n ist.
Allgemeiner ist der Divisionsrest eines Polynoms dividiert durch (X n − 1):
m
m
X
X
i
n
pi X mod (X − 1) =
pi X i mod n .
i=0
i=0
Sei f ∈ K[X] ein nicht-konstantes Polynom, zum Beispiel X n − 1. Wie im Fall
der ganzen Zahlen führt man für p, q ∈ K[X] Addition und Multiplikation verbunden
mit einer Modulo-Reduktion durch:
p +f q := (p + q) mod f
p ·f q := (p · q) mod f
Wie im Fall der ganzen Zahlen modulo n, die wir in Abschnitt 5 untersucht haben,
kann man über die Restklassen modulo f einen Ring definieren. Den entstehenden
Ring bezeichnet man als Faktorring und schreibt K[X]/(f ). Für geeignete Polynome
ist dies sogar ein Körper, wie wir in Kapitel 15 ab Seite 191 sehen werden.
Beispiel 4.16. Sei K = Z2 und f (X) := X 2 + X + 1. Da der Divisionsrest den Grad
kleiner als deg(X 2 + X + 1) = 2 hat, besteht Z2 [X]/(f ) genau aus den Polynomen
mit Grad maximal 1:
0, 1, X, X + 1.
Für die Addition gilt
(a + bX+) +f (a0 + b0 X) = (a + a0 ) + (b + b0 )X.
Die Multiplikationstabelle sieht wie folgt aus:
·
0
1
X
X +1
0
1
X
X +1
0
0
0
0
0
1
X
X +1
0
X
X +1
1
0 X +1
1
X
Der Leser überzeuge sich, dass F4 := Z2 [X]/(f ) ein Körper mit vier Elementen ist.
F4 hat den Unterkörper {0, 1}.
Beispiel 4.17. Untersuchen wir zum Abschluß ein weiteres Beispiel, nämlich K = R
und f (X) = X 2 + 1. Da der Divisionsrest den Grad kleiner als deg(X 2 + 1) = 2 hat,
besteht R[X]/(f ) genau aus den Polynomen mit Grad maximal 1:
R[X]/(X 2 + 1) = {a + bX | a, b ∈ R } .
Für die Addition gilt
(a + bX) +f (a0 + b0 X) = (a + a0 ) + (b + b0 )X
und wegen X 2 mod f = −1 erhalten wir für das Produkt:
(a + bX) ·f (a0 + b0 X) = (aa0 + ab0 X + a0 bX + bb0 X 2 ) mod f
= (aa0 + ab0 X + a0 bX − bb0 ) mod f
= aa0 − bb0 + (a0 b + ab0 )X
3. Nullstellen
51
Man kann nachrechnen, dass dies ein Körper ist (aufwendig!). Allerdings kennen wir
diesen Körper bereits: Man überzeuge sich, dass die Abbildung
ψ : C → R[X]/(X 2 + 1),
a + ib 7→ a + bX
einen Isomorphismus bildet, also ψ(x + y) = ψ(x) +f ψ(y) und ψ(x · y) = ψ(x) ·f ψ(y)
erfüllt sowie bijektiv ist. Dann gilt
R[X]/(X 2 + 1) ' C
und es folgt, dass R[X]/(X 2 + 1) wie C ein Körper ist.
3. Nullstellen
Wir wollen die Nullstellen von Polynomen untersuchen. Vor allem interessieren wir uns
für Nullstellen von Polynomen p ∈ C[X] über dem Körper C und seinem Unterkörper
R.
Pn
i
Def inition 4.18 (Nullstelle). Sei p(X) =
i=0 pi X ∈ K[X] ein Polynom über
0
einem Körper K und K ⊆ K ein Unterkörper
von K. Ein Element λ ∈ K0 heißt
P
n
Nullstelle oder Wurzel von p (über K0 ), falls i=0 pi λi = 0.
Ein konstantes Polynom p(X) = p0 hat nur dann eine Nullstelle, wenn es das Nullpolynom ist. Falls ein Polynom eine Nullstelle λ hat, kann man den Linearfaktor (X −λ)
abspalten:
Satz 4.19 (Satz von Ruffini). Sei p ∈ K[X] ein Polynom (ungleich dem Nullpolynom)
mit Nullstelle λ ∈ K. Dann gibt es ein Polynom q ∈ K[X] mit
p = (X − λ)q
und
deg q = deg p − 1
Beweis. Division mit Rest von p durch (X − λ) ergibt:
p = q(X − λ) + r
mit deg r < 1.
Der Rest r ist ein konstantes Polynom. Der Einsetzungshomomorphismus liefert mit
0 = ϕλ (p) = ϕλ (q) · ϕλ (X − λ) +ϕλ (r) = ϕλ (r),
| {z }
=0
dass ϕλ (r) = 0 und das Polynom r eine Nullstelle hat. Also ist r das Nullpolynom. Es ist möglich, dass man den Linearfaktor (X − λ) mehrfach abspalten kann.
Def inition 4.20 (Vielfachheit einer Nullstelle). Sei λ ∈ K die Nullstelle eines Polynoms p ∈ K[X] ungleich dem Nullpolynom. Die größte Zahl ν ≥ 1 mit
p = (X − λ)ν q
und
q ∈ K[X]
heißt die Vielfachheit der Nullstelle λ.
Die Anzahl der Nullstellen und ihre Mehrfachheiten läßt sich durch den Grad des
Polynoms nach oben abschätzen:
52
4. Polynome
Lemma 4.21. Sei p ∈ K[X] ein Polynom über einem Körper K, das ungleich dem
Nullpolynom ist. Seien λ1 , . . . , λm ∈ K Nullstellen von p und ν1 , . . . , νm ihre Vielfachheiten. Dann gilt
m
X
νi ≤ deg p.
i=1
Insbesondere ist die Anzahl der Nullstellen maximal deg p.
Beweis. Wir wenden iterativ Satz 4.19 an und erhalten
m
Y
p=
(X − λi )νi q
i=1
mit q ∈ K[X] ungleich dem Nullpolynom (formal durch einen einfachen Induktionsbeweis über die Anzahl der Nullstellen, wobei vielfache Nullstellen entsprechend
mehrfach gezählt werden, zu belegen). Aus der Gradformel erhalten wir:
deg p =
m
X
νi + deg q
i=1
Mit deg q ≥ 0 folgt die Behauptung.
Wir schließen weiter:
Pn
i
Korollar 4.22. Sei p(X) =
i=0 pi X ein Polynom über einem Körper K. Das
Polynom p ist genau dann das Nullploynom, wenn es mehr als n Nullstellen hat.
Beweis. Falls p das Nullpolynom ist, gilt die Aussage offenbar. Für p ungleich dem
Nullpolynom hat es nach Lemma 4.21 maximal deg p ≤ n Nullstellen.
Das Polynom p(X) := 2X 2 + 2 ∈ C[X] hat über R keine Nullstellen, über den
komplexen Zahlen C allerdings die beiden Nullstellen ±i. Man sagt, es zerfällt über
C in Linearfaktoren:
2X 2 + 2 = 2(X + i)(X − i)
Wir wollen mit Hilfe des Fundamentalsatzes der Algebra, den C.F. Gauß3 erstmals
1799 in seiner Dissertation bewies, zeigen, dass jedes nicht-konstante Polynom in C[X]
in Linearfaktoren zerfällt.
Fakt 4.23 (Fundamentalsatz der Algebra). Jedes nicht-konstante Polynom p ∈ C[X]
hat mindestens eine Nullstelle über C.
Es gibt zahlreiche Beweise (u.a. hat auch Gauß später weitere Beweise gegeben),
die allerdings Hilfsmittel aus der Analysis verwenden. Wir verwenden den Fundamentalsatz, um nachstehendes Resultat zu folgern:
Lemma 4.24. Jedes Polynom p ∈ C[X] ungleich dem Nullpolynom zerfällt in Linearfaktoren, d.h. es gibt a, λ1 , . . . , λn ∈ C mit a 6= 0, n = deg p und
p(X) = a · (X − λ1 )(X − λ2 ) · · · (X − λn ).
3Carl Friedrich Gauß, 1777–1855, siehe Fußnote auf Seite 4
3. Nullstellen
53
Beweis. Wir zeigen die Aussage durch Induktion über n = deg p.
• Induktionsverankerung für n = 0. Das Polynom hat die Form p(X) = p0 .
Mit a := p0 6= 0 folgt die Behauptung.
• Induktionsschluß von n − 1 auf n. Nach Induktionsannahme zerfallen alle
Polynome q ∈ C[X], deren Grad gleich n − 1 ≥ 0 ist, in Linearfaktoren.
Gemäß Fundamentalsatz der Algebra hat das Polynom p(X) ∈ C[X] eine
Nullstelle λ1 ∈ C. Aus Satz 4.19 erhalten wir:
p(X) = (X − λ1 )q(X)
mit λ1 ∈ C, q(X) ∈ C[X] und deg q = n − 1. Nach Induktionsannahme
zerfällt q(X) in Linearfaktoren, d.h. es gibt a, λ2 , λ3 , . . . , λn ∈ C mit
q(X) = a · (X − λ2 )(X − λ3 ) · · · (X − λn ).
Mit p(X) = (X − λ1 )q(X) folgt die Behauptung.
Eine Zerlegung in Linearfaktoren ist über R im allgemeinen nicht möglich, wie das
Beispiel des Polynoms 2X 2 +2 zeigt. Aber wir werden sehen, dass man jedes Polynom
p(X) ∈ R[X] als Produkt von Linearfaktoren und Polynomen zweiten Grades in R[X]
schreiben kann.
Lemma 4.25. Sei p ∈ R[X] ungleich dem Nullpolynom und λ ∈ C eine Nullstelle
von p. Dann ist auch die konjugierte komplexe Zahl4 λ eine Nullstelle von p und
insbesondere stimmen die Vielfachheiten der Nullstelle λ und λ überein.
P
Beweis. Sei p(X) := ni=0 pi X i . Wegen pi = pi folgt aus den Homomorphie-Eigenschaften von x 7→ x
0=0=
n
X
pi λ i =
i=0
n
X
pi λ i =
i=0
n
X
pi λ i ,
i=0
so dass λ ebenfalls eine Nullstelle ist.
Für die Aussage der Vielfachheit bezeichne ν(p, x) die Vielfachheit der Nullstelle
x des Polynoms p. Im Fall, dass die vorgegebene Nullstelle λ reell ist, also λ ∈ R,
gilt λ = λ und ν(p, λ) = ν(p, λ ). Wir zeigen durch Induktion über ν(p, λ), dass für
λ ∈ C \ R gilt
ν(p, λ) ≤ ν(p, λ ).
(9)
• Induktionsverankerung ν(p, λ) = 1: Weil mit λ auch λ eine Nullstelle ist, gilt
ν(p, λ) = 1 ≤ ν(p, λ ).
• Induktionsschluß von ν(p, λ) − 1 auf ν(p, λ): Wir nehmen an, dass für alle
Polynome p0 mit Nullstelle λ und ν(p0 , λ) = ν(p, λ) − 1 gilt:
ν(p0 , λ) ≤ ν(p0 , λ ).
(10)
4Zur Erinnerung: a + ib = a − ib. Die Abbildung x 7→ x ist ein Automorphismus des Körpers C
mit x = x. Es gilt y = y gdw. y ∈ R.
54
4. Polynome
Da mit λ ebenfalls λ 6= λ eine Nullstelle ist, können wir gemäß Satz 4.19 die
beiden Linearfaktoren (X − λ) und (X − λ ) abspalten:
p = (X − λ)(X − λ ) · p0
Weil ν(p0 , λ) = ν(p, λ) − 1 ist, wenden wir die Induktionsannahme (10) an
und erhalten mit ν(p0 , λ ) = ν(p, λ ) − 1 die Behauptung (9).
Die Abschätzung ν(p, λ) ≥ ν(p, λ) folgt bereits aus Ungleichung (9), man setze λ ← λ
und beachte λ = λ. Damit ist die Gleichheit bewiesen.
Sei λ := a + ib ∈ C \ R und λ = a − ib die konjugiert komplexe Zahl (beachte λ 6= λ).
Das normierte Polynom
q(X) := (X − λ)(X − λ )
= (X − a − ib)(X − a + ib)
= X 2 − aX − ibX − aX + a2 + iab + ibX − iab − i2 b2
= X 2 − 2aX + a2 + b2
hat zwar reelle Koeffizienten, aber keine Nullstelle über R (Warum?). Nach Lemma
4.24 zerfällt jedes Polynom p(X) mit reellen Koeffizienten über C in Linearfaktoren.
Wir fassen die Linearfaktoren (X − λ) und (X − λ ) der echt komplexen Nullstellen
λ des Polynoms p(X) zusammen, nach Lemma 4.25 treten sie jeweils paarweise auf:
Satz 4.26. Jedes Polynom p ∈ R[X] ungleich dem Nullpolynom hat eine Zerlegung
p(X) = a(X − λ1 )(X − λ2 ) . . . (X − λr ) · q1 (X) · q2 (X) · · · qc (X)
mit a, λ1 , λ2 , . . . , λr ∈ R, a 6= 0, und normierten Polynomen q1 (X), . . . , qc (X) ∈
R[X] vom Grad 2 ohne Nullstelle über R. Insbesondere hat das Polynom p genau r
Nullstellen über R und es gilt deg p = r + 2c.
Aus der Gleichung deg p = r + 2c erhalten wir für Polynome p mit ungeradem Grad,
dass r ebenfalls ungerade ist.
Korollar 4.27. Jedes Polynom p ∈ R[X] mit ungeradem Grad hat mindestens eine
Nullstelle über R.
Der Fundamentalsatz der Algebra ist eine reine Existenzaussage, aus dem Satz läßt
sich kein Verfahren zur Bestimmung von Nullstellen ableiten. Für ein Polynom aX 2 +
bX + c ∈ C[X] zweiten Grades erhalten wir die Nullstellen λ1 , λ2 aus der seit über
2000 Jahren bekannten pq-Formel
√
−b ± b2 − 4ac
λ1,2 =
.
2a
Etwas kompliziertere Formeln dieser Art gibt es auch für Polynome vom Grad 3 und
4. Die Formel für Polynome dritten Grades veröffentlichte 1545 G. Cardano5, allerdings wurde sie bereits um 1515 von S. del Ferro (1465–1526) oder N. Fontana6
gefunden, aber nicht publiziert. Cardanos Schüler L. Ferrari (1522–1565) führte
5Geronimo Cardano, 1501–1576, siehe Fußnote auf Seite 16.
6auch Tartaglia, d.h. Stotterer, genannt.
4. Interpolation
55
um 1540 den Fall eines Polynoms vierten Grades auf die Nullstellenbestimmung eines
Polynoms dritten Grades zurück.
Für Polynome ab Grad 5 hat 1826 N.H. Abel7 gezeigt, dass es solche allgemeinen
Formeln aus algebraischen Gründen nicht geben kann. Für praktische Anwendung
kennt man in der angewandten Mathematik bzw. Numerik aber effiziente Verfahren
zur Bestimmung oder Approximation von Nullstellen von Polynomen.
4. Interpolation
Wir haben zu einem Polynom p(X) ∈ K[X]n die Polynomfunktion x 7→ p(x) kennengelernt. In diesem Abschnitt suchen wir zu gegebenen Punkten (ai , bi ), i = 0, . . . , n,
ein Polynom p ∈ K[X]n mit p(ai ) = bi für alle i. Die Motivation für diese Fragestellung, dem Interpolationsproblem, ist vielfältig. Häufig sollen gemessene Daten
geeignet verbunden werden. In der Mathematik ist Interpolation ein Hilfsmittel für
die Approximation von Funktionen. In der Informatik kennt man ein Verfahren basierend auf der Interpolation, um zwei Polynome schneller als mit der Schulmethode
zu multiplizieren.
Def inition 4.28 (Interpolationsproblem). Sei K ein Körper. Das Interpolationsproblem lautet:
• Gegeben n + 1 Paare (ai , bi ) ∈ K2 , i = 0, . . . , n, mit paarweise verschiedene
ai .
• Finde ein Polynom p ∈ K[X]n mit p(ai ) = bi für i = 0, . . . , n.
Die Werte a0 , . . . , an heißen Stützstellen, die eindeutig bestimmte Lösung p(X) nennt
man Interpolationspolynom.
Bevor wir die Existenz des Interpolationspolynoms zeigen, beweisen wir, dass, wenn
es existiert, in diesem Fall eindeutig bestimmt ist:
Lemma 4.29. Es gibt höchstens ein Interpolationspolynom.
Beweis. Seien p, q ∈ K[X]n Interpolationspolynome. Wir zeigen, dass p = q oder
äquivalent d := p − q das Nullpolynom ist. Nach Lemma 4.8 ist der Grad des Differenzpolynoms d durch n beschränkt:
deg d = deg(p − q) ≤ max{p, q} ≤ n.
P
Das Differenzpolynom d = ni=0 di X i hat mindestens n + 1 Nullstellen, denn beide
Polynome p und q nehmen an den Stützstellen a0 , . . . , an jeweils den gleichen Wert
an:
d(ai ) = p(ai ) − q(ai ) = bi − bi = 0 für i = 0, . . . , n.
Nach Korollar 4.22 ist das Polynom d das Nullpolynom.
7Niels Hendrik Abel, 1802–1829, siehe Fußnote auf Seite 21.
56
4. Polynome
Um zu zeigen, dass das Interpolationspolynom existiert und wie
P man es berechnen
kann, fassen wir Koeffizienten des gesuchten Polynoms p(X) = ni=0 pi X i als Unbekannte auf. Wir suchen p0 , . . . , pn ∈ K mit
p(ai ) =
n
X
pj aji = bi
für i = 0, . . . , n.
j=0
Dies ist ein lineares Gleichungsystem in

1 a0 a20 · · ·
1 a1 a2 · · ·
1

 .. ..
..
. .
.
|
1 an a2n · · ·
{z
den n + 1 Variablen p0 , . . . , pn :
    
an0
p0
b0
n




a1   p1   b1 

..  ·  ..  =  ..  .




.
.
.
ann
=:Vn+1 (a0 ,a1 ,...,an )
pn
(11)
bn
}
Der Rang der (n+1)×(n+1)-Koeffizientenmatrix Vn+1 (a0 , . . . , an ) ist maximal n+1,
so dass das lineare Gleichungsystem (11) lösbar ist. Da höchstens ein Interpolationspolynom, d.h. eine Lösung des linearen Gleichungsystems, existiert, ist der Rang der
Koeffizientenmatrix gleich n + 1.
Satz 4.30 (Interpolationspolynom). Sei K ein Körper. Zu n+1 Paaren (ai , bi ) ∈ K2 ,
i = 0, . . . , n, mit paarweise verschiedenen ai gibt es genau ein Interpolationspolynom
p ∈ K[X]n , so dass p(ai ) = bi für i = 0, . . . , n.
Eine Matrix der Form Vn+1 (a0 , . . . , an ) heißt Vandermonde-Matrix. Falls die Werte a0 , . . . , an paarweise verschieden sind, hat die Matrix vollen Rang, denn zum linearen Gleichungssystem (11) existiert genau eine Lösung. Sollten zwei Werte ai , aj mit
i 6= j identisch sein, sind zwei Zeilen der Koeffizientenmatrix gleich und die Matrix
hat nicht vollen Rang.
Korollar 4.31 (Vandermonde-Matrix). Sei K ein Körper und a0 , . . . , an−1 ∈ K. Die
n × n-Vandermonde-Matrix


1 a0
a20 · · · an−1
0
1 a1

a21 · · · an−1
1


Vn (a0 , . . . , an−1 ) =  .
.
.
.
..
..
.. 
 ..

n−1
2
1 an−1 an−1 · · · an−1
hat genau dann vollen Rang, wenn a0 , . . . , an−1 paarweise verschieden sind.
Das Interpolationspolynom können wir mit dem Gauß-Algorithmus bestimmen. Überlicherweise verwendet man die Lagrange’sche Form des Interpolationspolynoms. Zu
gegebenen Stützstellen a0 , . . . , an sei
n
Y
X − aj
`i (X) :=
ai − aj
j=0
j6=i
für i = 0, . . . , n.
4. Interpolation
57
Diese Polynome `i (X) ∈ K[X]n heißen Lagrange-Koeffizienten oder auch LagrangePolynome. Man rechnet leicht folgende charakteristische Eigenschaft der LagrangeKoeffizienten nach:
(
1 falls i = k
`i (ak ) = δi,k =
0 falls i 6= k.
Das gesuchte Interpolationspolynom lautet in der Lagrange’schen Form
n
X
L(X) :=
`i (X) · bi .
i=0
Offenbar ist L(ai ) = bi und wegen deg `i (X) ≤ n gilt L(X) ∈ K[X]n .
Beispiel 4.32. Wir suchen ein Polynom p ∈ R[X]2 mit p(1) = 3, p(2) = 5 und
p(3) = 10. Die Lagrange-Koeffizienten lauten
(X − 2)(X − 3)
= 12 (X 2 − 5X + 6)
(1 − 2)(1 − 3)
(X − 1)(X − 3)
`1 (X) =
= −(X 2 − 4X + 3)
(2 − 1)(2 − 3)
(X − 1)(X − 2)
`2 (X) =
= 12 (X 2 − 3X + 2).
(3 − 1)(3 − 2)
Das gesuchte Polynom lautet
`0 (X) =
p(X) = 3 · `0 (X) + 5 · `1 (X) + 10 · `2 (X)
= 32 X 2 − 52 X + 4.
Man überzeuge sich durch Nachrechnen, dass die Lösung korrekt ist.
Kapitel 5
Der Rang von
Matrizen
Unser Ziel ist die Entwicklung eines Kriteriums für die Lösbarkeit von inhomogenen
linearen Gleichungssystemen sowie für die Bestimmung der Dimension des Lösungsraums des zugehörigen homogenen linearen Gleichungssystems.
1. Zeilenrang und Spaltenrang
Die Spaltenvektoren einer Matrix erzeugen einen Untervektorraum, den sogenannten
Spaltenraum der Matrix:
Def inition 5.1 (Spaltenraum, Spaltenrang). Sei A = (A1 , . . . , An ) ∈ Mm,n (K) Matrix mit den Spalten A1 , . . . , An ∈ Km . Dann nennen wir
SR(A) := span(A1 , . . . , An )
den Spaltenraum von A. Die Dimension des Spaltenraums dim SR(A) nennen wir den
Spaltenrang von A.
Nach Lemma 3.22 ist die Dimension des Spaltenraums gleich der maximalen Zahl
linear unabhängiger Spalten einer Matrix. Für die Zeilen einer Matrix definiert man
analog Zeilenraum und Zeilenrang:
Def inition 5.2 (Zeilenraum, Zeilenrang). Sei A = (z1 , . . . , zm )T ∈ Mm,n (K) Matrix
T ∈M
mit Zeilen z1T , . . . , zm
1,n (K). Dann nennen wir
ZR(A) := span(z1 , . . . , zm )
den Zeilenraum von A. Die Dimension des Zeilenraums dim ZR(A) heißt Zeilenrang
von A.
Auch in diesem Fall gilt wegen Lemma 3.22, dass die Dimension des Zeilenraums
gleich der maximalen Zahl linear unabhängiger Zeilen ist.
Spaltenraum und Zeilenraum einer Matrix sind im allgemeinen nicht gleich. Beide
Vektorräume haben aber die gleiche Dimension:
59
60
5. Der Rang von Matrizen
Satz 5.3. Zeilenrang und Spaltenrang einer Matrix sind stets gleich.
Beweis. Wir führen einen direkten Beweis mit Hilfe des Gauß-Verfahrens: Sei A ∈
Mm,n (K) Matrix. Dann gibt es nach Übungsaufgabe 4.2
• Permutationsmatrizen P ∈ Mm,m (K) und P 0 ∈ Mn,n (K),
• T ∈ UDm , T 0 ∈ ODn ,
• und D = (dij ) ∈ Mm,n (K) mit d11 · · · drr 6= 0 und dij = 0 sonst,
so dass gilt:
P AP 0 = T DT 0 .
Dabei ist T −1 die Zeilentransformationen im Gauß-Verfahren zu P AP 0 . DT 0 ist in
Treppenform mit r Stufen. Die Matrizen T und T 0 sind nicht nur invertierbar, sondern
es gilt sogar t11 = · · · = tmm = 1 und t011 = · · · = t0nn = 1. O.B.d.A. sei P = Im und
P 0 = In , denn Zeilen- oder Spaltenvertauschungen ändern weder den Zeilen- noch den
Spaltenrang. Für die Diagonalmatrix D gilt offenbar
dim ZR(D) = dim SR(D) = r.
Wir zeigen, dass elementare Zeilen- und Spaltentransformationen weder den Zeilennoch den Spaltenrang ändern. Die Behauptung folgt dann aus:
dim ZR(A) = dim ZR(D) = dim SR(D) = dim SR(A).
T ∈M
Seien A1 , . . . , An ∈ Km die Spalten und z1T , . . . , zm
1,n (K) die Zeilen von A. Wir
betrachten die Zeilentransformation A 7→ Tij (λ)A, die das λ-fache der j-ten Zeile zur
i-ten Zeile von A addiert: A 7→ Ti,j (λ) bewirkt zi0 = zi + λzj . Wir zeigen, dass sich
der Zeilenraum nicht ändert und die Dimension des Spaltenraums gleichbleibt:
a) Es gilt ZR(A) = ZR(Tij (λ)A), denn
• wegen zi0 = zi + λzj ist ZR(Tij (λ)A) ⊆ ZR(A) und
• wegen zi = zi0 − λzj ist ZR(A) ⊆ ZR(Tij (λ)A).
b) Es gilt dim SR(A) = dim SR(Tij (λ)A), denn die Multiplikation mit Tij (λ)
liefert einen Vektorraum-Isomorphismus
ψ : SR(A) → SR(A),
S 7→ Tij (λ)S.
Für jeden Vektorraum-Isomorphismus ψ gilt nach Satz 3.18 auf Seite 35, dass
A1 , . . . , An genau dann linear unabhängig sind, wenn ψ(A1 ), . . . , ψ(An )linear
unabhängig sind. Also ist dim SR(A) = dim SR(Tij (λA).
Man nutzt die Gleichheit von Spaltenrang und Zeilenrang und spricht vom Rang einer
Matrix:
Def inition 5.4 (Rang). Sei A ∈ Mm,n (K). Dann heißt
rang(A) := dim SR(A) = dim ZR(A)
der Rang von A.
Der Rang ist eine Invariante bei der Multiplikation mit invertierbaren Matrizen:
2. Rang und lineare Gleichungssysteme
61
Satz 5.5. Seien A ∈ Mm,n (K) und B ∈ Mm,m (K), B 0 ∈ Mn,n (K) invertierbare
Matrizen. Dann gilt:
rang A = rang(BA) = rang(AB 0 ).
Beweis. Der Beweis rang A = rang(BA) erfolgt direkt über Isomorphie von Vektorräumen: Die Abbildung
ψ : SR(A) → SR(BA),
x 7→ Bx
∼ SR(BA). Dahe sind insbeist ein Vektorraum-Isomorphismus und somit gilt SR(A) =
sondere die Dimensionen beider Vektorräume gleich, und es gilt rang(A) = rang(BA).
Der Beweis von rang(A) = rang(AB 0 ) führt man analog.
2. Rang und lineare Gleichungssysteme
Inhomogene lineare Gleichungssysteme Ax = b haben genau dann eine Lösung, wenn
der Vektor b von den Spalten von A linear abhängig ist. Hieraus folgt auch, dass
homogene lineare Gleichungssysteme stets eine Lösung besitzen, denn der Nullvektor
ist linear abhängig. Wir formulieren dieses Kriterium mittels der Begriffe Spaltenraum
und Spaltenrang:
Satz 5.6 (Lösbarkeitskriterium für lineare Gleichungssysteme). Sei (A, b) ∈ Mm,n+1 (K)
erweiterte Matrix des linearen Gleichungssystems Ax = b. Dann gilt
a) Lös(A, b) 6= ∅ ⇐⇒ SR(A) = SR(A, b).
b) Lös(A, b) = ∅ ⇐⇒ dim SR(A, b) = dim SR(A) + 1.
Beweis. Sei A = (A1 , . . . , An ) ∈ Mm,n (K) Matrix mit Spalten A1 , . . . , An ∈ Km und
b ∈ Km . Wir zeigen beide Behauptungen direkt:
a) Lös(A, b) 6= ∅ ⇐⇒ SR(A) = SR(A, b)
Da genau dann Lös(A, b) 6= ∅, wenn ein es ein x ∈ Kn gibt mit Ax = b, gilt:
Lös(A, b) 6= ∅
⇐⇒
∃x :
n
X
Ai xi = b.
i=1
Also:
Lös(A, b) 6= ∅
⇐⇒
b ∈ span(A1 , . . . , An ) = SR(A).
Weil b ∈ SR(A) äquivalent zu SR(A) = SR(A, b) ist, folgt die Behauptung:
Lös(A, b) 6= ∅
⇐⇒
SR(A) = SR(A, b).
b) Lös(A, b) = ∅ ⇐⇒ dim SR(A, b) = dim SR(A) + 1
Wegen Teil a) gilt Lös(A, b) = ∅ genau dann, wenn SR(A) 6= SR(A, b). Aus
SR(A) 6= SR(A, b)
⇐⇒
span(A1 , . . . , An ) 6= span(A1 , . . . , An , b),
|
{z
} |
{z
}
=SR(A)
=SR(A,b)
folgt mit dim SR(A) ≤ dim SR(A, b) ≤ dim SR(A) + 1:
Lös(A, b) = ∅ ⇐⇒ dim SR(A, b) = dim SR(A) + 1.
Dies war zu zeigen.
62
5. Der Rang von Matrizen
Der Rang einer Matrix gibt uns ein Kriterium für die Lösbarkeit des entsprechenden
homogenen linearen Gleichungssystems:
Satz 5.7. Sei A ∈ Mm,n (K). Für das zugehörige homogene lineare Gleichungssystem
Ax = 0 gilt
dim Lös(A, 0) = n − rang(A).
Beweis. Sei A ∈ Mm,n (K). Nach Übungsaufgabe 4.2 gibt es
• Permutationsmatrizen P ∈ Mm,m (K) und P 0 ∈ Mn,n (K),
• T ∈ UDm , T 0 ∈ ODn und
• D = (dij ) ∈ Mm,n (K) mit d11 · · · drr 6= 0 und dij = 0 sonst,
so dass gilt:
P AP 0 = T DT 0 .
O.B.d.A. sei P = Im und P 0 = In . Für die Lösungsmenge des zur Diagonalmatrix D
gehörenden homogenen linearen Gleichunggsystem Dx = 0 gilt
Lös(D, 0) = span(er+1 , . . . , en ),
denn wegen
d11 x1 = 0, . . . , drr xr = 0
und d11 · · · drr 6= 0
gilt x1 = . . . = xr = 0 und xr+1 , . . . , xn sind frei wählbar. Also ist
dim Lös(D, 0) = n − r = n − rang D.
Es bleibt zu zeigen, dass die Multiplikation mit den Elementarmatrizen T und T 0
weder die Dimension des Lösungsraums noch den Rang der Matrix verändert. Wir
zeigen zuerst, dass
Lös(T DT 0 , 0) = T 0
−1
Lös(D, 0).
Aufgrund von Bemerkung 1.13 auf Seite 12 und Satz 5.6 auf Seite 61 sind T und T 0
invertierbar. Es gilt:
x ∈ Lös(T DT 0 , 0)
⇐⇒
T DT 0 x = 0.
Multiplikation der Gleichung T DT 0 x = 0 mit T liefert:
x ∈ Lös(T DT 0 , 0)
⇐⇒
DT 0 x = 0,
d.h. x ∈ Lös(T DT 0 , 0) genau dann, wenn T 0 x ∈ Lös(D, 0):
x ∈ Lös(T DT 0 , 0)
Also ist Lös(T DT 0 , 0) = T
0 −1
⇐⇒
x ∈ T0
−1
Lös(D, 0).
Lös(D, 0) und damit gilt
dim Lös(T DT 0 , 0) = dim(T 0
Aus Lemma 5.5 folgt rang D =
rang(T DT 0 ).
−1
Lös(D, 0)).
Kapitel 6
Lineare Abbildungen
Wir nennen eine Abbildung zwischen zwei algebraischen Strukturen Homomorphismus, wenn die Funktion mit der bzw. den Verknüpfungen der Struktur verträglich
ist. Für Vektorräume heißen solche Funktionen lineare Abbildungen.
1. Eigenschaften
Seien U und V Vektorräume über einem Körper K. Ein Homomorphismus f : U → V ,
also eine Abbildung, bei der für alle u1 , u2 ∈ U und λ ∈ K gilt
Additivität:
f (u1 + u2 ) = f (u1 ) + f (u2 )
Homogenität:
f (λ · u1 ) = λ · f (u1 )
(12)
heißt lineare Abbildung:
Def inition 6.1 (Lineare Abbildung). Seien U und V Vektorräume über einem Körper K. Eine lineare Abbildung ist ein Homomorphismus f : U → V . Die Menge aller
linearen Abbildungen von U nach V bezeichnen wir mit
Lin(U, V ) := {f : U → V | f ist Homomorphismus } .
(13)
Die Eigenschaften (12) einer linearen Abbildung lassen sich zu einer Gleichung
zusammenfassen. Eine Funktion f : U → V ist genau dann eine lineare Abbildung,
wenn für u1 , u2 ∈ U und λ1 , λ2 ∈ K gilt:
f (λ1 u1 + λ2 u2 ) = λ1 · f (u1 ) + λ2 · f (u2 ).
Man überlegt sich leicht, dass mit f, g ∈ Lin(U, V ) auch h := f + g mit h(u) =
f (u) + g(u) eine lineare Abbildung ist, ebenso k := λf mit k(u) = λ · f (u) für λ ∈ K.
Die Menge der linearen Abbildungen Lin(U, V ) ist bezüglich Addition und skalarer
Multiplikation abgeschlossen:
Satz 6.2. Seien U und V Vektorräume über einem Körper K. Dann ist Lin(U, V )
zusammen mit der oben angegebenen Addition und skalaren Multiplikation ein KVektorraum.
63
64
6. Lineare Abbildungen
Die Hintereinanderausführung (Konkatenation) h := f ◦g ∈ Lin(U, W ) mit h(u) =
f (g(u)) zwei linearer Abbildungen f ∈ Lin(V, W ) und g ∈ Lin(U, V ) ist ebenfalls eine
lineare Abbildung. Denn für u1 , u2 ∈ U , λ1 , λ2 ∈ K und v1 := g(u1 ), v2 := g(u2 ) gilt:
h(λ1 u1 + λ2 u2 ) = f g(λ1 u1 + λ2 u2 )
= f λ1 · g(u1 ) + λ2 · g(u2 )
= f λ1 v1 + λ2 v2
= λ1 · f (v1 ) + λ2 · f (v2 )
= λ1 · f (g(u1 )) + λ2 · f (g(v2 ))
= λ1 · h(u1 ) + λ2 · h(u2 ).
Beschränken wir uns auf den Fall U = V = W , also Endomorphismen, so ist die Menge
der linearen Abbildungen mit den beiden Verknüpfungen Addition und Konkatenation
ein Unterring aller Abbildungen f : U → U :
Satz 6.3. Sei K ein Körper und U ein K-Vektorraum. Die Menge aller linearen
Abbildungen Lin(U, U ) mit Addition +“ und Konkatenation ◦“ ist ein Ring.
”
”
Wie bei Abbildungen üblich bezeichnet man mit bild f den Bildbereich der Funktion f ∈ Lin(U, V ):
bild f := f (U ) = {f (u) | u ∈ U } ⊆ V.
bild f ist ein Untervektorraum von V . Der Kern ker f der Abbildung f ∈ Lin(U, V )
umfasst die Vektoren u ∈ U , welche auf die Null abgebildet werden:
ker f := f −1 (0) = {u ∈ U | f (u) = 0 } ⊆ U.
ker f ist ein Untervektorraum von U Aufgrund der Linearität ist f (0) = 0, so dass
der Nullvektor stets im Kern einer linearen Abbildung liegt. Bei einem trivalen Kern,
d.h. ker f = {0}, ist die Abbildung injektiv. Ein surjektive Abbildung f hat genau
dann trivalen Kern, wenn f ein Isomorphismus ist. Für die Dimension der beiden Untervektorräume ker f und bild f einer linearen Abbildung f ∈ Lin(U, V ) gilt folgende
Relation, die wir in Übungsaufgabe 8.1 beweisen:
Satz 6.4 (Dimensionsformel für lineare Abbildungen). Seien U und V Vektorräume
über einem Körper K sowie f ∈ Lin(U, V ) eine lineare Abbildung. Dann gilt:
dim(ker f ) + dim(bild f ) = dim U.
Der folgende Satz trifft auch auf unendlich dimensionale Vektorräume zu, wenngleich wir uns im Beweis auf den in der Vorlesung betrachteten Fall von Vektorräumen
endlicher Dimension beschränken.
Satz 6.5. Seien U und V Vektorräume über einem Körper K und a1 , . . . , an eine
Basis von U . Eine lineare Abildung f ∈ Lin(U, V ) ist genau dann ein Isomorphismus,
wenn die Bilder f (a1 ), . . . , f (an ) der Basisvektoren von U eine Basis von V bilden.
Beweis. Wir zeigen beide Richtungen. Sei f ein Isomorphismus. Es gilt:
span {f (a1 ), . . . , f (an )} ⊆ bild f ⊆ V.
(14)
2. Darstellende Matrix
65
Da f bijektiv ist, existiert zu jedem v ∈ V ein Vektor
u :=
n
X
λi ai ∈ U
mit
v = f (u) = f
i=1
n
X
λi ai
!
=
i=1
n
X
λi f (ai ).
i=1
In Verbindung mit den Inklusionen (14) gilt
V = span {f (a1 ), . . . , f (an )} ⊆ bild f ⊆ V.
Da V die Dimension n hat, bilden f (a1 ), . . . , f (an ) eine Basis von V .
Umgekehrt, sei f (a1 ), . . . , f (an ) eine Basis von V . Dann ist dim U = dim V . Aus
V = span {f (a1 ), . . . , f (an )} ⊆ bild f ⊆ V
folgt dim(bild f ) = dim V = dim U , d.h. f ist surjektiv. Nach Übungsaufgabe 8.1 ist
f ein Isomorphismus.
Die Dimension des Bildbereiches nennt man den Rang einer linearen Abbildung:
Def inition 6.6 (Rang einer Abbildung). Seien U und V Vektorräume über einem
Körper K und f : U → V eine lineare Abbildung. Dann heißt rang f := dim(bild f )
der Rang von f .
Den Begriff Rang“ haben wir zuvor in Kapitel 5 für Matrizen defininert. Wie
”
wir in Abschnitt 2 in diesem Kapitel und Übungsaufgabe 8.2 zeigen werden, kann
jeder Abbildung f ∈ Lin(U, V ) eine eindeutig bestimmte Matrix F mit f (x) = F x
zugeordnet werden, wobei der Rang der Abbildung f mit dem Rang der Matrix F
übereinstimmt.
Um eine lineare Abbildung f : U → V anzugeben, genügt es, die Bilder der
Basisvektoren von U zu spezifizieren.
Sei a1 , . . . , an eine Basis des Vektorraums U .
P
Für das Bild eines Vektors u = ni=1 λi ai ∈ U erhalten wir aus den HomomorphieEigenschaften der linearen Abbildung:
!
n
n
n
X
X
X
f (u) = f
λi ai =
f (λi ai ) =
λi f (ai ).
i=1
i=1
i=1
Umgekehrt sind zwei lineare Abbildungen f, g : U → V genau dann identisch, wenn
die Bilder der Basisvektoren jeweils übereinstimmen.
2. Darstellende Matrix
Wir zeigen in diesem Abschnitt, dass man zu einen Körper K die Menge der Matrizen
Mm,n (K) als die Menge der linearen Abbildungen Lin(Kn , Km ) interpretieren kann.
Zu einer Matrix A ∈ Mm,n (K) ist durch x 7→ Ax eine lineare Abbildung gegeben,
denn es gilt A(x + y) = Ax + Ay und A(λx) = λAx für x, y ∈ Kn und λ ∈ K:
Lemma 6.7. Sei K ein Körper. Dann ist zu jeder Matrix A ∈ Mm,n (K) die Funktion
φA : Kn → Km ,
eine lineare Abbildung.
x 7→ Ax
66
6. Lineare Abbildungen
Umgekehrt kann jede lineare Abbildung f : Kn → Km durch eine eindeutig bestimmte Matrix F ∈ Mm,n (K) beschrieben werden, also f (x) = F x. Diese Matrix F
wollen wir im folgenden herleiten. Seien e1 , . . . , en die kanonischen Einheitsvektoren.
Die Abbildung
f ist eindeutig durch die Bilder der Einheitsvektoren gegeben, denn
P
für x = ni=1 xi ei gilt:
!
n
n
n
X
X
X
f (x) = f
xi ei =
f (xi ei ) =
xi · f (ei ).
i=1
i=1
i=1
Um diese Darstellung in Matrix-Vektor-Schreibweise f (x) = F x zu formulieren, wähle
als Spalten die Bilder der Einheitsvektoren:
F := f (e1 ) f (e2 ) · · · f (en ) ∈ Mm,n (K).
P
Bezeichnen wir die Spaltenvektoren mit fi := f (ei ), gilt für x = ni=1 xi ei ∈ Kn :
!
n
n
n
X
X
X
Fx =
xi fi =
xi f (ei ) = f
xi ei = f (x)
i=1
i=1
i=1
Diese Konstruktion fassen wir mit folgendem Merksatz zusammen:
Die Spalten sind die Bilder der Einheitsvektoren.
Zwei lineare Abbildungen genau dann überein, wenn die Bilder der Einheitsvektoren
identisch sind. Weil diese die Spaltenvektoren sind, ist die Matrix zu einer linearen
Abbildung eindeutig bestimmt.
Korollar 6.8. Sei K ein Körper. Die K-Vektorräume Lin(Kn , Km ) und Mm,n (K)
sind isomorph.
Beweis. Wir zeigen, dass die Abbildung
ϕ : Lin(Kn , Km ) → Mm,n (K),
f 7→ f (ei ) 1≤i≤n ∈ Mm,n (K)
ein Isomorphismus ist. Die Abbildung ϕ ist injektiv, denn gilt ϕ(f ) = ϕ(g) für f, g ∈
Lin(Kn , Kn ), so stimmen beide Funktionen g, f auf den Einheitsvektoren (einer Basis
des Kn ) überein, und sind identisch. Die Funktion ϕ ist ebenfalls surjektiv, denn
gemäß Lemma 6.7 ist durch eine Matrix F ∈ Mn,n (K) eine lineare Abbildung f :
x 7→ F x mit ϕ(f ) = F gegeben. Zu zeigen bleibt die Linearität der Funktion ϕ. Für
f, g ∈ Lin(Kn , Km ) und λ, µ ∈ K gilt
ϕ(λf + µg) = λ · f (ei ) + µ · g(ei ) 1≤i≤n
= λ · f (ei ) 1≤i≤n + µ · g(ei ) 1≤i≤n
= λ · ϕ(f ) + µ · ϕ(g).
Die Abbildung ϕ : Lin(Kn , Km ) → Mm,n (K) ist somit ein Isomorphismus.
In Satz 6.3 haben wir gezeigt, dass die Menge der linearen Abbildungen Lin(Kn , Kn )
mit Addition und Komposition einen Ring bildet. Dieser ist isomorph zum Ring
der n × n Matrizen, wobei die Hintereinanderausführung f ◦ g zweier Abbildungen
f, g ∈ Lin(Kn , Kn ) dem Produkt F · G der zugehörigen Matrizen entspricht:
2. Darstellende Matrix
67
Korollar 6.9. Sei K ein Körper. Die Ringe (Lin(Kn , Kn ), +, ◦) und (Mn,n (K), +, ·)
sind isomorph.
Beweis. Wir betrachten die Abbildung
ϕ : Lin(Kn , Kn ) → Mn,n (K),
f 7→ F := f (ei ) 1≤i≤n ∈ Mn,n (K)
Aus dem Beweis zu Satz 6.8 wissen wir bereits, dass die Abbildung ϕ eine Bijektion
darstellt. Ferner ist die Funktion additiv, d.h. für f, g ∈ Mn,n (K) gilt ϕ(f + g) =
ϕ(f ) + ϕ(g). Zu zeigen bleibt, dass sie auch verträglich mit der Konkatenation bzw.
Multiplikation ist:
ϕ(f ◦ g) = ϕ(f ) · ϕ(g) = F · G
Seien F = (fi,j )1≤i,j≤n = ϕ(f ) und G = (gi,j )1≤i,j≤n = ϕ(g). Es genügt zu zeigen,
dass der i-te Spaltenvektor des Matrixprodukts F G gleich dem Bild (f ◦ g)(ei ) ist.
Wegen fi,j = (f (ej ))i und gi,j = (g(ej ))i folgt aus der Linearität der Abbildungen
f, g:
!
n
n
n
X
X
X
gi,ν · eν =
gν,i f (eν ) =
f (eν ) · gν,i
(f ◦ g)(ei ) = f (g(ei )) = f
ν=1
ν=1
ν=1
Der Vektor f (eν ) ist der ν-te Spaltenvektor (fj,ν )1≤j≤n von F so dass gilt:

 Pn
ν=1 f1,ν gν,i
P
 n f2,ν gν,i 

 ν=1
(f ◦ g)(ei ) = 
.
..


Pn .
f
g
ν=1 n,ν ν,i
Das Bild (f ◦g)(ei ) stimmt mit der i-ten Spalte der Matrix F G überein, also ϕ(f ◦g) =
F G.
Wir haben uns auf die linaren Funktionen Lin(Kn , Kn ) (auf quadatische Matrizen)
beschränkt, damit die Konkatenation (das Matrixprodukt) definiert ist. Man rechnet
leicht nach, dass allgemein für f ∈ Lin(Km , Kr ) und g ∈ Lin(Kn , Km ) gilt:
ϕ(f ◦ g) =
| {z }
∈Mr,n (K)
ϕ(f )
| {z }
·
ϕ(g)
|{z}
∈Mr,m (K) ∈Mm,n (K)
In anderen Fällen ist weder die Konkatenation der Funktionen f, g noch das Produkt
der Matrizen definiert.
Wir haben zuvor nur lineare Abbildungen der Form f : Kn → Km betrachtet.
Seien U, V zwei K-Vektorräume, A = {a1 , . . . , an } eine geordnete Basis von U und
B = {b1 , . . . , bm } eine geordnete Basis von V . Den Fall einer Abbildung f ∈ Lin(U, V )
für zwei beliebige Vektorräume reduziert man mittels der Koordinatenfunktion zu den
Basen A und B
Aλ 7→ (λ1 , λ2 , . . . , λn )
Bµ 7→ (µ1 , µ2 , . . . , µm )
68
6. Lineare Abbildungen
auf eine Abbildung der Form Kn → Km mit den kanonischen Einheitsvektoren als Basen. Die Matrix MA,B (f ) einer linearen Funktion f ∈ Lin(U, V ) bezüglich gegebener
Basen A, B von U und V beschreibt die Abbildung der Koordinatenvektoren:
Def inition 6.10 (Darstellungsmatrix einer linearen Abbildung). Seien U, V Vektorräume über einem Körper K, sowie A = {a1 , . . . , an } eine geordnete Basis von U
und B = {b1 , . . . , bm } eine geordnete Basis von V . Die Darstellungsmatrix
MA,B (f ) := (fij ) 1≤i≤m ∈ Mm,n (K)
1≤j≤n
einer linearen Abbildung f ∈ Lin(U, V ) bezüglich der Basen A, B ist erklärt durch
f (ai ) =
n
X
fj,i bj
für i = 1, . . . , m.
j=1
Die i-te Spalte von MA,B (f ) ist der Koordinatenvektor von f (ai ) zur Basis B.
Die Hintereinanderausführung zwei linearer Funktionen g : U → V und f : V →
W für Vektorräume U, V, W mit Basen A, B, C bedeutet, dass man die darstellenden
Matrizen multipliziert. Die darstellende Matrix FA,B einer linearen Funktion f : U →
V hängt von den gewählten Basen A, B der Vektorräume U und V ab. Sei A0 eine
weitere Basis von U . Der Basiswechsel, der Übergang von der Basis A0 zur Basis
A des Vektorraums U wird durch den Isomorphismus bzw. die darstellende Matrix
TA0 ,A beschrieben. Die beschreibende Matrix FA0 ,B der Abbildung f zu den Basen
A0 , B lautet
MA0 ,B (f ) = MA,B (f ) · TA0 ,A .
Wählt man statt B eine andere Basis B 0 des Vektorraums V und sei TB0 ,B die darstellende Matrix dieses Basiswechsels, so ist die beschreibende Matrix FA0 ,B0 zu den
Basen A0 , B 0 gegeben als das Matrixprodukt
MA0 ,B0 (f ) = TB−1
0 ,B · MA,B (f ) · TA0 ,A .
(15)
Diese Identität nennt man Transformationsformel für darstellende Matrizen.
Beispiel 6.11. Wir betrachten einen Endomorphismus f des Vektorraums K[X]2
der Polynome mit Grad maximal 2 über einem beliebigen Körper K. Seien A =
{a1 , a2 , a3 } und B = {b1 , b2 , b3 } geordnete Basen, bestehend aus den Polynomen:
a1 (X) = 1 + X + X 2
b1 (X) = X + X 2
a2 (X) = 1 + X
b2 (X) = −1 + X
a3 (X) = −1
b3 (X) = X 2 .
Die Abbildung f ist gegeben durch die Bilder der Basisvektoren:
f (a1 ) := b1 − b3
f (a2 ) := b3
f (a3 ) := b1 + b2 − b3 .
2. Darstellende Matrix
69
Aus dieser Definition der Funktion f läßt sich unmittelbar die darstellende Matrix
MA,B (f ) bezüglich der Basen A, B herleiten, denn der i-te Spaltenvektor ist der Koordinatenvektor von f (ai ) zur Basis B:


+1 0 +1
0 +1
MA,B (f ) =  0
−1 +1 −1
Wir führen einen Basiswechsel durch und ersetzen die Basis A durch die Basis A0 :=
{a01 , a02 , a03 }, bestehend aus den Polynomen:
a01 (X) = 1
a02 (X) = X
a03 (X) = X 2
Um die darstellende Matrix MA0 ,B (f ) der Funktion f zu berechnen, bestimmen wir
zuerst die Transformationsmatrix TA0 ,A . Wegen
a01 (X) = −a3 (X)
a02 (X) = a2 (X) + a3 (X)
a03 (X) = a1 (X) − a2 (X)
lautet die Transformationsmatrix
TA0 ,A


0
0 +1
=  0 +1 −1
−1 +1 0
und die darstellende Matrix MA0 ,B (f ) = MA,B (f ) · TA0 ,A :

 
 

+1 0 +1
0
0 +1
−1 +1 +1
0 +1 ·  0 +1 −1 = −1 +1 0  .
MA0 ,B (f ) =  0
−1 +1 −1
−1 +1 0
+1 0 −2
Wir wollen unsere Rechnung überprüfen. Man überzeuge sich durch Nachrechnen,
dass für die Funktion f gilt
!
f (1) = B(MA0 ,B (f ) · e1 ) = −b1 − b2 + b3
!
f (X) = B(MA0 ,B (f ) · e2 ) = b1 + b2
!
f (X 2 ) = B(MA0 ,B (f ) · e3 ) = b1 − 2b3
wobei e1 , e2 , e3 die kanonischen Einheitsvektoren sind.
Kapitel 7
Lineare Codes
Ein wichtiges Teilgebiet der Kodierungstheorie, in der Vektorräume eine wichtige Rolle
spielen, sind lineare Codes.
1. Grundbegriffe
Eine Nachricht soll von einem Sender über einen Kanal an einen Empfänger übermittelt werden. Dabei handelt es sich um einen gestörten Übertragungskanal, d.h.
die Nachricht kann fehlerhaft übertragen werden. Ziel ist es, dass der Empfänger
die korrekte Nachricht dennoch erhält. Dazu wird die Nachricht kodiert, man fügt
zusätzliche (redundante) Informationen hinzu. Statt der Nachricht überträgt man
das zugehörige Codewort. Auch wenn bei der Übermittlung Fehler auftreten, kann
der Empfänger mit Hilfe der im Codewort enthaltenen zusätzlichen Informationen die
eigentliche Mitteilung bestimmen.
gestörte
evtl. gestörtes
empfangene
Nachricht Kodierung Codewort Übertragung
Codewort
Dekodierung Nachricht
m
7→
c
−−−−−−→
Kanal
c̃
7→
m
An den Code werden dabei bestimmte Anforderungen gestellt:
• Es sollen möglichst viele Fehler (Störungen) korrigiert werden können.
• Die Codeworte sollen im Vergleich zu den Nachrichten nur unwesentlich
länger sein.
• Kodierung und Dekodierung sollen effizient durchzuführen sein.
In der Praxis finden sich zahlreiche Anwendungen fehlerkorrigierender Codes, beispielsweise die Datenübertragung von Raumsonden zur Erde oder die Datenfernübermittlung mittels Modem. Auch in der Unterhaltungselektronik werden fehlerkorrigierende Codes verwendet: Die Daten auf CDs (Compact Discs) sind kodiert, damit der
CD-Player kleinere Beschädigungen der CD ausgleichen kann.
71
72
7. Lineare Codes
Wir beschäftigen uns in diesem Abschnitt mit einer wichtigen Klasse von Codes,
den linearen Codes. Ein linearer Code ist ein Untervektorraum über einem endlichen
Körper:
Def inition 7.1 ([n, k]-Code). Sei K ein endlicher Körper. Ein K-Vektorraum C ⊆
Kn der Dimension k heißt [n, k]-Code über K. Im Fall K = F2 = {0, 1} sprechen wir
von einem binären, linearen Code.
Um Nachrichten mit Hilfe linearer Codes zu kodieren, wählen wir als Nachrichtenmenge den Vektorraum Kk der Worte der Länge k über dem Alphabet“ des Körpers
”
K und verwenden eine injektive Abbildung c : Kk → C, die jeder Nachricht eindeutig
ein Codewort eines [n, k]-Codes C ⊆ Kn zuweist.1 Die Dekodierung erfolgt mit der
Minimal-Distanz-Dekodierung (auch Maximum-Likelihood-Dekodierung). Man ordnet
dem übertragenen Codewort dasjenige Codewort zu, das ihm am ähnlichsten“ ist,
”
d.h. welches den kleinsten Abstand zu ihm hat. Den Abstand zweier Codewörter
wird mit der Hamming-Distanz 2 genannten Metrik (zur Definition einer Metrik siehe
Kapitel 11, Definition 11.4 auf Seite 118; man rechnet leicht nach, dass die HammingDistanz die dort angegebenen Eigenschaften erfüllt) gemessen:
Def inition 7.2 (Hamming-Distanz). Seien x, y ∈ Kn . Dann heißt
d(x, y) := | {i | xi 6= yi } |
Hamming-Distanz (auch Hamming-Abstand) von x und y.
Die Hamming-Distanz ist die Anzahl der Komponenten, in denen sich zwei Vektoren unterscheiden. Die Minimal-Distanz-Dekodierung erfolgt in zwei Schritten:
(1) Bestimme zu c̃ das Codewort c ∈ C mit minimalem Hamming-Abstand
d(c̃, c).
(2) Bestimme die dem Codewort c zugeordnete Nachricht m0 .
Für lineare Codes genügt es, die Distanz zum Nullvektor zu betrachten:
Def inition 7.3 (Hamming-Gewicht). Sei x ∈ Kn . Wir nennen
w(x) := d(x, 0) = | {i | xi 6= 0 } |
das Hamming-Gewicht von x.
Je größer der Abstand der Codeworte voneinander ist, desto mehr Fehler kann
man korrigieren. Eine wichtige Größe für lineare Codes ist deren Minimalabstand :
Def inition 7.4 (Minimalabstand). Sei C ein [n, k]-Code. Dann bezeichnen wir
d(C) := min {d(x, y) | x, y ∈ C, x 6= y }
als den Minimalabstand von C. Für C = {0} setzen wir d({0}) = min ∅ = ∞.
Um zu kennzeichnen, dass ein [n, k]-Code Minimalabstand d hat, spricht man auch
von einem [n, k, d]-Code.
1Wir haben die Menge C der Codeworte als Code bezeichnet. Teilweise in der Literatur und
nach DIN 44300 wird die eindeutige Zuordnung c : Kk → C als Code definiert.
2
Richard W. Hamming, einer der Gründerväter der Kodierungstheorie. Bell Laboratories, 1948.
1. Grundbegriffe
73
Def inition 7.5 (Minimalgewicht). Sei C ein [n, k]-Code. Dann heißt
w(C) := min {w(x) | x ∈ C \ {0} }
das Minimalgewicht von C. Für C = {0} setzen wir w({0}) = min ∅ = ∞.
Für lineare Codes stimmt das Minimalgewicht mit dem Minimalabstand überein:
Lemma 7.6. Sei C ⊆ Kn linearer Code. Dann gilt d(C) = w(C).
Beweis. Sei C ⊆ Kn ein [n, k]-Code und x, y ∈ C. Für C = {0} folgt die Gleichheit trivialerweise. Für C 6= {0} ist der Abstand zwischen x und y die Anzahl der
Komponenten, in denen sich die beiden unterscheiden. Genau für diese Komponenten
ist aber auch die Differenz x − y von 0 verschieden. Damit gilt d(x, y) = w(x − y).
Da wir bereits mit y = 0 ∈ C und x ∈ C alle Elemente von C erhalten, folgt die
Behauptung.
Bei einem Übertragungsfehler werden Komponenten des Codewortes c ∈ C verändert
(Wir setzen zur Vereinfachung voraus, dass stets n Zeichen empfangen werden). Bezogen auf das empfangene Codewort bedeutet das c̃ = c + e mit einem Fehlervektor
e ∈ Kn .
Def inition 7.7 (t-fehlererkennend, t-fehlerkorrigierend). Ein linearer Code C heißt
t-fehlererkennend, wenn die Minimal-Distanz-Dekodierung bis zu t fehlerhafte Komponenten in den gestörten Codewörtern erkennt. Ein linearer Code C heißt t-fehlerkorrigierend, wenn die Minimal-Distanz-Dekodierung bis zu t fehlerhafte Komponenten
in den gestörten Codewörtern korrigiert.
Wir veranschaulichen uns die Situation: Stellt man sich die Codewörter als Punkte
im Raum Kn vor, so bilden diejenigen gestörten Codewörter (die Elemente des Kn ),
welche die Minimal-Distanz-Dekodierung einem Codewort zuordnet, eine Kugel um
dieses Codewort.
Def inition 7.8 (Kugel). Sei C ⊆ Kn linearer Code. Dann nennen wir für c ∈ C
Bt (c) := {x ∈ Kn | d(x, c) ≤ t }
eine Kugel um c mit Hamming-Radius t.
'$
'$
'$
'$
p
p
p
p
'$
'$
'$
'$
&%
&%
&%
&%
t
p
p
p
p
c
&%
&%
&%
&%
Alle Vektoren bzw. gestörten Codewörter innerhalb einer Kugel werden bei der
Minimal-Distanz-Dekodierung dem Codewort im Mittelpunkt der Kugel zugeordnet.
Es gibt Codes, die mehr Fehler erkennnen als korrigieren können, denn falls die Kugeln
nämlich nicht disjunkt sind, sondern an ihrem Rand“ gemeinsame Punkte haben,
”
sind diese zwar keine gültigen Codeworte, können aber auch nicht eindeutig einem
gültigen Codewort zugeordnet werden (denn die Mittelpunkte der beiden Kugeln sind
gleichweit entfernt). Aus obigen Betrachtungen folgt direkt
74
7. Lineare Codes
Korollar 7.9. Ein linearer Code C ⊆ Kn ist genau dann t-fehlerkorrigierend, wenn
d(C) ≥ 2t + 1.
Wir präzisieren die Vorstellung davon, wieviel Nachricht“ und wieviel Korrek”
”
turinformationen“ die Codewörter eines linearen Codes enthalten. Ein [n, k]-Code ist
ein k-dimensionaler Untervektorraum eines n-dimensionalen Vektorraums über einem
endlichen Körper K. Die Codewörter haben die Länge n, die Anzahl frei wählbarer
Komponenten in den Codewörtern ist k. Wir haben also k Komponenten für die Informationen zur Verfügung und senden n Komponenten pro Codewort. Im Fall von
binären Codes nennen wir k die Anzahl der Informationsbits und n−k die Anzahl der
Korrekturbits. Informationsrate und Korrekturrate eines binären linearen Codes sind
die Verhältnisse von Informationsbits bzw. Korrekturbits zur Länge der Codewörter:
Def inition 7.10 (Informations- und Korrekturrate). Sei C ein binärer [n, k]-Code.
Dann heißt
k
Anzahl Informationsbits
=
n
Bitlänge
die Informationsrate von C und
l
m
d(C)−1
2
n
=
Anzahl Korrekturbits
Bitlänge
die Korrekturrate von C.
Bis auf die schnelle Kodierung und Dekodierung können wir unsere Anforderungen
vom Anfang des Kapitels an einen guten Code beschreiben:
Def inition 7.11 (Guter Code). Eine Folge (Ci )n∈N von binären [ni , ki ]-Codes Ci
heißt gut, wenn
lim
i→∞
ki
> 0,
ni
lim
i→∞
d(Ci )
> 0,
ni
lim ni = ∞.
i→∞
Eine Folge binärer linearer Codes heißt gut, wenn Informationsrate und Korrekturrate bei steigender Bitlänge positiv bleiben.
Beispiel 7.12. Um die Begriffe zu verdeutlichen und anzuwenden, betrachten wir
zwei konkrete binäre lineare Codes.
• Beim t-fachen Wiederholungscode wird jede Nachricht t-mal hintereinander
verschickt:




k
C := (x, x, . . . , x) ∈ Fkt
x
∈
F
.
2 2
 | {z }

t-mal
Die Nachrichten sind Vektoren aus Fk2 , haben also die Länge k und die Codewörter sind Vektoren über F2 der Länge n = kt für ein festes t ≥ 1.
Der t-fachen Wiederholungscode C ist ein [kt, k]-Code mit Minimalgewicht
1. Grundbegriffe
75
d(C) = t. Wir bestimmen die Informationsrate und die Korrekturrate von
C:
Informationsrate =
k
1
=
kt
t
Korrekturrate =
d t−1
2 e
.
kt
Die Folge t-facher Wiederholungscodes stellt keinen guten Code dar, denn
d t−1 e
lim Informationsrate · Korrekturrate = lim 22 = 0.
k→∞
k→∞ t k
• Der binärer Code mit einem Paritätsbit beruht auf der Idee, die Nachricht um
ein Prüfbit zu erweitern, derart, dass die Summe der Komponenten modulo
2 sets 0 ist:
(
)
n
X
C := (x1 , . . . , xn ) ∈ Fn2 xi = 0 (mod 2) .
i=1
Die Dimension von C ist um eins kleiner als die Länge dera Codewörter,
denn ein Bit wird als Prüfbit verwendet. Der Paritätscode C läßt sich als
Lösungsraum eines homogenen linearen Gleichungssystems über F2 auffassen
C = Lös(eT , 0)
mit eT = (1, 1, . . . , 1) ∈ M1,n (F2 ),
denn in F2 gilt eT (x1 , . . . , xn )T =
auf Seite 62 folgt
Pn
i=1 xi .
Mit rang(eT ) = 1 und Satz 5.7
dim(C) = n − rang(eT ) = n − 1.
Wir bestimmen das Minimalgewicht des Paritätscodes C. Da der Nullvektor bei der Bestimmung des Minimalgewichts nicht berücksichtigt wird und
Vektoren mit nur einer von Null verschiedenen Komponente nicht zum Code
gehören, gilt:
d(C) = min w(c) = w((1, 1, 0, . . . , 0)) = 2.
c∈C
Wir berechnen die Informationsrate und die Korrekturrate von C:
Informationsrate =
1
n−1
=1−
n
n
Korrekturrate =
d 2−1
1
2 e
= .
n
n
Die Folge der Paritätsbit-Codes ist ebenfalls kein guter Code, denn:
n−1
lim Informationsrate · Korrekturrate = lim
= 0.
n→∞
n→∞ n2
Es gibt Folgen von guten Codes, zum Beispiel Justesen-Codes und Turbo-Codes.
Diese beruhen auf endlichen Körpern K mit q m Elementen, q prim, insbesondere
auf Körpern mit 2m Elementen. Die Konstruktion und Beweise gehen aber über den
Rahmen der dieser Vorlesung hinaus [Lint98].
76
7. Lineare Codes
2. Gitter und Kugelpackungen
Die Konstruktion von binären [n, k]-Codes mit möglichst großem Minimalgewicht
bei gegebenem (n, k) hängt mit dem Problem der dichtesten Kugelpackungen im Rn
zusammen. Der Zusammenhang ergibt sich dabei unmittelbar aus den vorherigen
Überlegungen. Da wir mit linearen Codes arbeiten, interessieren wir uns primär für
diejenigen Kugelpackungen, die linearen Codes entsprechen. Es sind dies die sogenannten gitterartigen Kugelpackungen.
Um den intuitiven Begriff eines Gitters zu formalisieren, stellen wir uns vor, dass
wir ein Gitter über den n-dimensionalen Raum Rn legen und davon nur die Kreu”
zungspunkte“ betrachten. Diese erhalten wir als die ganzzahligen Linearkombinationen einer Basis:
Def inition 7.13 (Volldimensionales Gitter). Sei B := {b1 , . . . , bn } ⊂ Rn eine geordnete Basis des Rn . Dann heißt
)
( n
X
L(b1 , . . . , bn ) :=
t i b i ti ∈ Z ⊂ R n
i=1
ein volldimensionales Gitter mit Gitterbasis B.
Ein Gitter L ⊂ Rn ist eine additive Untergruppe des Rn , die keinen Häufungspunkt hat (diskret ist). Wir gehen auf Gitter in Kapitel 16 ab Seite 201 näher ein.
Beispiel 7.14. Ein einfaches Beispiel für ein Gitter im Rn ist Zn mit der Gitterbasis
e1 , . . . , en .
Def inition 7.15 (Gitterartige Kugelpackung). Eine Kugelpackung des Rn heißt gitterartig, wenn die Kugelmittelpunkte ein Gitter bilden.
Unter der Packungsdichte: einer gitterartigen Kugelpackung verstehen wir den
Anteil der Kugelvolumen am gesamten Raum. Je höher die Packungsdichte einer
gitterartigen Kugelpackung ist, desto größer sind die Abstände zwischen den Codeworten des entsprechenden linearen Codes. Wir nutzen diese Entsprechung, um diejenigen linearen Codes auszuzeichnen, die optimalen, d.h. dichtesten Kugelpackungen
entsprechen
Def inition 7.16 (t-perfekter Code). Ein linearer Code C ⊆ Kn heißt t-perfekt, wenn
die Kugeln Bt (c) zu c ∈ C eine Zerlegung (Partition) des Kn bilden:
[
a) Die Kugeln bedecken den gesamten Raum:
Bt (c) = Kn .
c∈C
b) Die Kugeln sind disjunkt: Bt (c) ∩ Bt (c0 ) = ∅ für c, c0 ∈ C mit c 6= c0 .
Für kleine n kennt man optimale, d.h. dichteste gitterartige Kugelpackungen des Rn
[CS93]. Wir betrachten einige Beispiele:
• R1 : Die reelle Zahlengerade ist einfach optimal aufzuteilen. Die Kugeln sind
dabei die reellen Intervalle von der Größe der Länge des Gitterbasisvektors:
3. Generator- und PCH-Matrix
77
Da jede Zahl einem Intervall zugeordnet ist, beträgt die Packungsdichte 1.
• R2 : Auch in der reellen Ebene entspricht die optimale Aufteilung der Vorstellung. Wir packen die Kreise möglichst dicht zusammen:
'$
'$
'$
'$
p
p
p
p
'$
'$
'$
'$
&%
&%
&%
&%
p
p
p
p
&%
&%
&%
&%
Dabei gilt:
Fläche der Halbkugel mit Radius 12
Fläche des gleichseitigen Dreiecks mit Kantenlänge 1
1 1 2
( ) π
π
= 2 1 2√ = √ ≈ 0, 9069.
2 3
4 3
Packungsdichte =
• R3 : Mit der gleichen Idee wie im R1 und R2 werden die Kugeln im reellen
Raum zu einer Apfelsinen-Gitter-Packung“ angeordnet. Die Packungsdichte
”
π
beträgt 3√
.
2
• R8 : Im R8 ist die maximale Packungsdichte 2−4 .
Die angegebenen Packungsdichten sind jeweils maximal für gitterartige Kugelpackungen des R1 , R2 , R3 und R8 . Innerhalb der Fragestellung der maximalen Packungsdichten im Rn gibt es noch ungelöste Probleme:
• Maximale Packungsdichte von gitterartigen Kugelpackungen im Rn für n >
8.
• Maximale Packungdichte für beliebige Kugelpackungen im Rn für n > 2.
Dabei müssen die Kugeln den gleichen Radius haben. Für n = 3 nennt man
dies das Problem von Kepler3.
3. Generator- und PCH-Matrix
Da ein linearer Code ein Untervektorraum ist, kann man ihn durch eine Basis eindeutig charakterisieren. Für lineare Codes faßt man die Basisvektoren in einer Matrix
zusammen. In der Kodierungstheorie betrachtet man üblicherweise Zeilenvektoren:
Def inition 7.17 (Generatormatrix). Sei C ⊆ Kn ein [n, k]-Code und g1 , . . . , gk ∈ Kn
eine Basis von C. Dann heißt
 T
g1
 .. 
G :=  .  ∈ Mk,n (K)
gkT
Generatormatrix (auch Basismatrix) zu C.
3Johannes Kepler, 1571-1630 war ein berühmter Astronom und Mathematiker. Sein Hauptbeschäftigungsgebiet waren die Planetenbewegungen.
78
7. Lineare Codes
Man kann einen [n, k]-Code C ⊆ Kn durch seine Generatormatrix angeben. Da
jedes Codewort eine Linearkombination über K der Basisvektoren von C ist, gilt für
die Generatormatrix von C
n
o n
o
C = GT u u ∈ Kk = (uT G)T u ∈ Kk .
Für den Rn kennen wir den Begriff der Orthogonalität. Er besagt, dass zwei Vektoren
x, y ∈ Rn senkrecht aufeinander stehen, wenn xT y = 0:
x ⊥ y ⇐⇒ xT y = xy T = 0.
Wir können diesen Begriff auf beliebige Vektorräume übertragen, dabei verliert er
jedoch die geometrische Bedeutung des senkrecht Aufeinanderstehens“: So sind im
”
Fn2 alle Vektoren mit einer geraden Anzahl von Einsern orthogonal zu sich selbst.
Wir definieren zu einem gegebenen Untervektorraum U ⊆ Kn den dazugehörigen
Orthogonalraum als den Untervektorraum derjenigen Vektoren, die orthogonal zu
allen Vektoren aus U stehen:
Def inition 7.18 (Orthogonalraum). Sei U ⊆ Kn ein K-Vektorraum. Dann ist
U ⊥ := v ∈ Kn uT v = 0 für alle u ∈ U
der Orthogonalraum zu U .
Zu linearen Codes nennen wir den Orthogonalraum dualen Code:
Def inition 7.19 (Dualer Code). Sei C ⊆ Kn ein [n, k]-Code. Dann heißt
C ⊥ := u ∈ Kn cT u = 0 für alle c ∈ C
der duale Code zu C.
Der duale Code ist zu einem [n, k]-Code C ist ein linearer Code der Dimension n − k,
denn ist G Generatormatrix zu C, dann gilt:
dim C ⊥ = dim Lös(G, 0) = n − rang G = n − dim C = n − k.
Satz 7.20. Sei C ⊆ Kn ein [n, k]-Code. Dann ist C ⊥ ein [n, n − k]-Code.
Die Dimensionen eines linearen Codes und seines dualen Codes addieren sich zur
Dimension des umgebenden Raumes auf:
dim C + dim C ⊥ = k + n − k = n.
Für beliebige K-Vektorräume U ⊆ Kn gilt analog dim U + dim U ⊥ = n.
Lemma 7.21. Sei C ⊆ Kn ein [n, k]-Code. Dann ist C = (C ⊥ )⊥ .
Beweis. Sei C ⊆ Kn ein [n, k]-Code und H ∈ Mn−k,n (K) Generatormatrix von C ⊥ .
Nach Konstruktion gilt C ⊆ (C ⊥ )⊥ , denn (C ⊥ )⊥ besteht aus allen Vektoren, die
orthogonal zu C ⊥ sind. Die Vektoren aus C sind per Definition orthogonal zu C ⊥ .
Weiterhin gilt für die Dimension von (C ⊥ )⊥ mit Satz 7.20:
dim(C ⊥ )⊥ = n − dim C ⊥ = n − (n − k) = k = dim C.
Wegen C ⊆ (C ⊥ )⊥ und dim C = dim(C ⊥ )⊥ folgt mit Satz 3.20 und der Isomorphie
endlich erzeugter Vektorräume zu Kn die Behauptung.
3. Generator- und PCH-Matrix
79
Die Generatormatrix des dualen Codes erlaubt es uns, schnell zu überprüfen, ob ein
empfangenes Wort gültig ist, d.h. ob ein Vektor ein Codewort ist:
Satz 7.22. Sei C ⊆ Kn ein [n, k]-Code und H Generatormatrix zu C ⊥ . Dann gilt für
c ∈ Kn :
c ∈ C ⇐⇒ Hc = 0.
Der Test, ob ein empfangenes Wort ein gültiges Codewort ist, wird damit besonders einfach. Man nennt eine Generatormatrix H von C ⊥ daher eine PCH-Matrix
(P arity CH eck-Matrix, auch Kontrollmatrix, Prüfmatrix ) zu C. Beachte, dass man
mit Hilfe der Kontrollmatrix und Satz 7.22 nur effizient entscheiden kann, ob ein
empfanges Wort ein (gültiges) Codewort darstellt oder nicht. Wir zeichnen diejenigen Generatormatrizen und PCH-Matrizen aus, deren linker bzw. rechter Teil die
Einheitsmatrix ist:
Def inition 7.23 (Kanonische Generatormatrix, kanonische PCH-Matrix). Eine Generatormatrix der Form (Ik , B) mit B ∈ Mk,n−k (K) heißt kanonische Generatormatrix. Eine PCH-Matrix der Form (A, In−k ) mit A ∈ Mn−k,k (K) heißt kanonische
PCH-Matrix.
Wir zeigen, dass und wie man zu einem gegebenen linearen Code eine kanonische
Generatormatrix erhält. Voraussetzung ist, dass die ersten k Spalten der gegebenen
Generatormatrix linear unabhängig sind.
Satz 7.24. Sei C ⊆ Kn ein [n, k]-Code mit Generatormatrix G = (A, B) ∈ Mk,n (K),
A ∈ Mk,k (K) und B ∈ Mk,n−k (K). Es gibt eine Generatormatrix G0 mit G0 = (Ik , B 0 )
genau dann, wenn rang A = k.
Beweis. Nach Satz 3.24 ist A invertierbar und
A−1 G = (Ik , A−1 B)
ist Generatormatrix des linearen Codes C.
Für kanonische Generatormatrizen gilt, dass die ersten k Komponenten der Codeworte c = (c1 , . . . , cn ) ∈ Kn jeden Wert (c1 , . . . , ck ) ∈ Kk annehmen. Die ersten k Komponenten (c1 , . . . , ck ) sind Informationsstellen, die übrigen Komponenten (ck+1 , . . . , cn )
sind Prüfstellen. Die eigentliche Information einer Nachricht m steht in den Informationsstellen. Die restlichen Prüfstellen sind redundant, sie dienen zur Fehlerkontrolle
und Fehlerkorrektur. Für K = F2 sprechen wir von Informationsbits und Prüfbits.
Die Kodierung einer Nachricht m ∈ Kk erfolgt durch die Abbildung m 7→ mT G.
Gibt es zu jedem linearen Code eine kanonische Generatormatrix? Offensichtlich
nicht; wir können jedoch eine Äquivalenzrelation auf linearen Codes einführen, so dass
sich in jeder Äquivalenzklasse ein linearer Code mit kanonischer Generatormatrix
findet. Zwei lineare Codes heißen äquivalent, wenn man ihre PCH-Matrizen durch
Permutationen der Spalten ineinander überführen kann.
Def inition 7.25 (Äquivalente Codes). Seien C, C 0 ⊆ Kn zwei [n, k]-Codes mit PCHMatrizen H, H 0 ∈ Mn−k,n (K). Dann heißen C und C 0 äquivalent, wenn eine Permutationsmatrix P ∈ Mn,n (K) mit H 0 = HP existiert.
80
7. Lineare Codes
Man überzeuge sich, dass dies eine Äquivalenzrelation ist (siehe Definition 2.30 auf
Seite 28).
Satz 7.26. Zu jedem linearen Code gibt es einen äquivalenten Code mit kanonischer
Generatormatrix.
Beweis. Sei C ⊆ Kn ein [n, k]-Code mit Generatormatrix G ∈ Mk,n (K). Wir gehen
in zwei Schritten vor:
(1) Multiplikation mit einer regulären k × k Matrix T von links liefert eine neue
Generatormatrix G0 = T G von C.
(2) Multiplikation mit einer n × n Permutationsmatrix von rechts liefert die
Generatormatrix G0 P eines äquivalenten Codes.
Also ist für reguläre Matrizen T ∈ Mk,k (K) und Permutationsmatrizen P ∈ Mn,n (K)
die Matrix T GP stets Generatormatrix eines zu C äquivalenten linearen Codes.
Bleibt zu zeigen, dass es geeignete Matrizen T und P gibt so dass T GP = (Ik , B)
ist. Dazu wählen wir P so, dass die ersten k Spalten von GP linear unabhängig
sind. G hat genau k linear unabhängige Spalten, denn G ist eine Basis von C und
es gilt daher k = dim C = rang G = Spaltenrang von G. Wir erhalten eine Matrix
GP = (D, B) ∈ Mk,n (K) mit D ∈ Mk,k (K) und B ∈ Mk,n−k (K). Wegen rang D = k
ist D regulär. Wir multiplizieren von links mit der regulären k × k Matrix D−1 und
es gilt D−1 (D, B) = (Ik , B).
Im Übungsaufgabe 9.2 stellen wir einen Zusammenhang zwischen kanonischer Generatormatrix und kanonischer PCH-Matrix eines linearen Codes her. Dieser erlaubt es,
Generatormatrix bzw. PCH-Matrix eines linearen Codes (und damit sowohl den linearen Code selbst als auch seinen dualen Code) durch eine einzige Matrix A anzugeben.
Diese genügt zur Bestimmung von G und H.
Satz 7.27. Sei C ⊆ Kn ein [n, k]-Code und A ∈ Mk,n−k (K). Genau dann ist (Ik , A)
eine Generatormatrix zu C, wenn (−AT , In−k ) PCH-Matrix zu C ist.
4. Hamming-Codes
Wir lernen eine weitere Klasse binärer linearer Codes kennen, die Hamming-Codes.4
Hamming-Codes sind 1-fehlerkorrigierend und gestatten eine einfache Dekodierung.
r
Def inition 7.28 (Hamming-Code). Der binäre Hamming-Code Cr ⊂ F22 −1 ist der
Code zur PCH-Matrix Hr , deren Spalten aus den 2r − 1 Vektoren von Fr2 \ {0} besteht.
Der Hamming-Code Cr ist also ein [2r − 1, 2r − r − 1]-Code. Charakteristisch für
binäre Hamming-Codes sind die paarweise verschiedenen Spaltenvektoren der Kontrollmatrix. Die Reihenfolge der Spalten von H ist willkürlich, denn eine andere Anordnung erzeugt einen äquivalenten Code mit gleichen Eigenschaften. Für r = 3 sieht
4R.W. Hamming, siehe Fußnote auf Seite 72
4. Hamming-Codes
81
die kanonische PCH-Matrix des Hamming-Codes

1 1 1 0 1

H3 = 1 1 0 1 0
1 0 1 1 0
C3 wie folgt aus:

0 0
1 0 .
0 1
Das Minimalgewicht eines Hamming-Codes Cr ist konstant:
Satz 7.29. Für den Hamming-Code Cr gilt d(Cr ) = 3. Er ist 1-fehlerkorrigierend.
Beweis. Offenbar gibt es ein Codewort c ∈ Cr mit w(c) = 3, so dass d(Cr ) ≤ 3. Es
genügt, d(Cr ) ≥ 3 zu zeigen:
• Falls d(C) = 1,gäbe es ein c ∈ C mit w(c) = 1. Wegen Hr c = 0 müßte eine
Spalte in Hr gleich 0 sein. Widerspruch.
• Falls d(C) = 2, gäbe es ein c ∈ C mit w(c) = 2, d.h. zwei Komponenten von
c wären 1 und alle anderen 0. Wegen Hr c = 0 müßten zwei Spalten von Hr
gleich sein. Widerspruch.
Also ist d(C) = 3.5
Um ein empfangenes Hamming-Code-Wort c̃ zu dekodieren, berechne H c̃ und unterscheide zwei Fälle:
a) H c̃ = 0: Da nach Satz 7.22 ein gültiges Codewort empfangen wurde, sind
entweder keine oder mindestens drei Fehler aufgetreten. Wir setzen c := c̃.6
b) H c̃ 6= 0: Es ist mindestens ein Fehler aufgetreten. Falls genau ein Fehler
aufgetreten ist, gilt
H c̃ = H(c + ei ) = 0 + hi ,
wobei hi ∈ M1,2r −1 (F2 ) die i-te Spalte von H ist. Da die Spalten von H
paarweise verschieden sind, ist die Spalte eindeutig bestimmt und wir setzen
c := c̃ − ei .
Wir berechnen die Packungsdichte der einem (binären) Hamming-Code Cr entr
r
sprechenden gitterartigen Kugelpackung des F22 −1 . Der Hamming-Code Cr ⊂ F22 −1
r
ist ein [2r − 1, 2r − r − 1]-Code. Aufgrund K = F2 gilt |C| = 22 −r−1 und wegen
d(C) = 3 sind die Kugeln B1 (c) paarweise disjunkt. Da eine Kugel mit Radius 1
genau die Codewörter enthält, die sich von ihrem Mittelpunkt c in genau einer Komponente unterscheiden, gilt
|B1 (c)| = 1 + dim F22
r −1
= 2r .
Die Kugeln nehmen den gesamten Raum ein:
P
|B1 (c)|
r
|Cr |2r
22 −r−1 2r
c∈Cr
Packungsdichte =
=
=
= 1.
22r −1
22r −1
22r −1
5Man kann den Satz auch aus Übungsaufgabe 10.1 folgern: Die Spalten von H sind paarweise
r
verschieden und damit über F2 linear unabhängig, also d(Cr ) ≥ 2 + 1. Umgekehrt ist die Summe der
ersten drei Spalten Null, so dass d(Cr ) < 3 + 1 gilt.
6Falls mehr zwei Übertragungsfehler aufgetreten sind, ist diese Wahl falsch, wir können dies aber
nicht erkennen.
82
7. Lineare Codes
Wir haben den folgenden Satz bewiesen, wonach der Hamming-Code Cr ⊂ F22
Beispiel eines 1-perfekten Codes ist:
r −1
das
Satz 7.30. Die Kugeln B1 (c) mit Hammingradius 1 um die Codeworte des Hammingr
r
Codes Cr ⊂ F22 −1 bilden eine Zerlegung von F22 −1 .
Kapitel 8
Direkte Summe
Zu einem Untervektorraum U des Rn betrachten wir das orthogonale Komplement
U ⊥ aller auf U senkrecht stehenden Vektoren. Jeder Vektor w ∈ Rn kann eindeutig
als Summe eines Vektors aus U und eines Vektors aus U ⊥ dargestellt werden. Diese
Zerlegung formalisieren wir mit dem Begriff der direkten Summe.
1. Orthogonales Komplement
Sei K ein Körper und U ⊆ Kn ein Untervektorraum. In Kapitel 7 haben wir den
Orthogonalraum U ⊥ zu U definiert als
U ⊥ := v ∈ Kn uT v = 0 für alle u ∈ U ⊆ Kn .
Sowohl U als auch der zugehörige Orthogonalraum U ⊥ sind Untervektorräume von
Kn . Nach Satz 7.20 stehen die Dimensionen in folgender Relation:
dim U + dim U ⊥ = n.
Für den Fall K = R zeigen wir, dass im Durchschnitt U ∩ U ⊥ nur der Nullvektor
liegt, man nennt daher U ⊥ ⊆ Rn das orthogonale Komplement zum Untervektorraum
U ⊆ Rn . Der Orthogonalraum U ⊥ ist im Vektorraum Rn komplementär im Sinne einer
sogenannten direkten Summe
o
n
U ⊕ U ⊥ = u + v u ∈ U, v ∈ U ⊥ = Rn
bei der jeder Vektor w ∈ Rn als (eindeutig bestimmte) Summe w = u + v mit u ∈ U
und v ∈ U ⊥ darstellbar ist:
Satz 8.1. Sei U ⊆ Rn ein Untervektorraum von Rn . Dann gilt:
a) U ∩ U ⊥ = {0}.
b) Jeder Vektor w ∈ Rn ist eindeutig darstellbar als Summe w = u + v mit
u ∈ U und v ∈ U ⊥ .
83
84
8. Direkte Summe
Beweis. Sei U ⊆ Rn ein Untervektorraum von Rn . Wir zeigen U ∩ U ⊥ = {0}. Sei
v ∈ U ∩ U ⊥ . Wegen vi2 ≥ 0 folgt aus
vT v =
n
X
vi2 = 0,
i=1
dass vi = 0 für alle i, also v der Nullvektor ist.1 Zu zeigen bleibt, dass die Darstellung
w = u + v mit u ∈ U und v ∈ U ⊥ eindeutig ist. Sei b1 , . . . , bk eine Basis von U und
bk+1 , . . . , bn eine Basis von U ⊥ . Wir zeigen,
P dass die Vektoren b1 , . . . , bn eine Basis
von Rn bilden. Seien λ1 , . . . , λn ∈ Rn mit ni=1 λi bi = 0. Dann gilt:
k
X
λ i bi = −
n
X
i=1
i=k+1
| {z }
|
∈U
λ i bi
{z
∈U ⊥
}
Da der Vektor auf der linken Seite in U und der auf der rechten in U ⊥ ist, liegen
beide Vektoren sowohl in U als auch in U ⊥ , also im Durchschnitt U ∩ U ⊥ . Wegen
U ∩ U ⊥ = {0} sind beide Vektoren 0. Weil b1 , . . . , bk und bk+1 , . . . , bn Basen sind,
folgt:
λ 1 = · · · = λk = 0
λk+1 = · · · = λn = 0.
Die n Vektoren b1 , . . . , bn ∈ Rn sind linear unabhängig und bilden nach Satz 3.20 eine
Basis des Vektorraums Rn .
Wir definieren zwei lineare Abbildungen, die einen Vektor w auf seine Anteile in
U und dem orthogonalen Komplement U ⊥ abbilden (diese Abbildung heissen Projektionen):
πU :
n
X
i=1
πU⊥ :
Rn → U
λi bi 7→
k
X
n
X
λ i bi
i=1
i=1
Rn → U ⊥
λi bi 7→
n
X
λ i bi .
i=k+1
Offenbar gilt w = πU (w) + πU⊥ (w). Diese Zerlegung mit πU (w) ∈ U und πU⊥ (w) ∈ U ⊥
ist eindeutig, weil b1 , . . . , bn eine Basis von Rn ist.
Für die beiden Projektionen π und π ⊥ , die wir im Beweis zu Satz 8.1 definiert haben,
gilt π ◦ π = π und π ⊥ ◦ π ⊥ = π ⊥ . Dies ist charakteristisch für Projektionen, die man
für beliebige, algebraische Strukturen (Gruppen, Ringe, Vektorräume, usw.) bildet:
Def inition 8.2 (Projektion). Eine Projektion π ist ein Endomorphismus mit
π ◦ π = π.
Die Funktion πU : V → U , die den Vektor aus dem Vektorraums V auf seinen Anteil
im Untervektorraum U abbildet, nennt man orthogonale Projektion von V auf U .
1Für diesen Schluß setzen wir voraus, dass v , . . . , v reelle Zahlen sind, für endliche Körper gilt
1
n
dies im allgemeinen nicht.
2. Direkte Summe
85
2. Direkte Summe
Nach Satz 8.1 gilt für einen Untervektorraum U ⊆ Rn und den zugehörigen Orthogonalraum U ⊥ :
U + U ⊥ = {u + v | u ∈ U, v ∈ U ⊥ } = Rn
U ∩ U ⊥ = {0}.
Dies ist ein Beispiel einer (inneren) direkten Summe Rn = U ⊕ U ⊥ :
Def inition 8.3 (Innere direkte Summe). Seien U1 , . . . , Ut Untervektorräume desselben Vektorraums. Dann nennen wir
)
( n
t
t
M
X
X Ui :=
Ui =
ui ui ∈ Ui
i=1
i=1
i=1
P
innere direkte Summe, falls Ui ∩
i6=j Uj = {0} für j = 1, . . . , t.
P
Seien U1 , . . . , Ut mit Ui ∩
i6=j Uj = {0} Untervektorräume. Die Dimension des
L
Vektorraums ti=1 Ui ist die Summe
dim
t
M
i=1
Ui =
t
X
dim Ui
i=1
der Dimension der einzelnen Untervektorräume (Übungsaufgabe 10.4).
Analog, aber verschieden von der inneren direkten Summe ist die externe direkte
Summe (auch direktes oder kartesisches Produkt):
n
× Ui := {(u1 , u2 , . . . , un ) | ui ∈ Ui } .
i=1
Für die externe direkte Summe müssen U1 , . . . , Un nicht notwendigerweise Untervektorräume desselben Vektorraums sein.
Die Begriffe innere und externe direkte Summe erklärt man für beliebige, algebraische Strukturen mit kommutativer Addition, wie zum Beispiel Abelsche Gruppen,
Ringe, Ringe mit Eins, Vektorräume usw. Im folgenden sei (Ai )i∈I eine Familie von
Mitgliedern einer solchen algebraischen Struktur. Die Abbildung i 7→ Ai sei injektiv,
I ⊆ N heißt Indexmenge. Es bezeichne 0i ∈ Ai das neutrale Element der Addition
und (gegebenenfalls) 1i ∈ Ai das Einselement.
Def inition 8.4 (Externe direkte Summe). Sei (Ai )i∈I eine Familie von Mitgliedern
einer algebraischen Struktur mit kommutativer Addition. Dann nennen wir
× Ai := {(ai )i∈I | ai ∈ Ai , ai = 0i bis auf endlich viele i ∈ I }
i∈I
externe direkte Summe. Die Operationen auf ×i∈I Ai werden komponentenweise erklärt:
(ai )i∈I (bi )i∈I := (ai bi )i∈I
λ · (ai )i∈I := (λ · ai )i∈I .
∈ {+, −, ·, /, . . .}
86
8. Direkte Summe
Assoziativität, Kommutativität und (gegebenenfalls) Distributivität der Operationen übertragen sich wegen der komponentenweise Definition der Operationen aus
der Familie (Ai )i∈I der algebraischen Struktur. (0i )i∈I ist das Nullelement und (1i )i∈I
das Einselement der externen direkten Summe ×i∈I Ai .
Satz 8.5. Für eine Familie (Ai )i∈I von Gruppen, Ringe oder Vektorräumen hat die
externe direkte Summe ×i∈I Ai die gleiche algebraische Struktur.
Satz 8.5 gilt nicht für Körper und Schiefkörper, denn ein Element (ai )i∈I ist genau
dann invertierbar, wenn zu jedem ai das Inverse a−1
existiert. Es gibt aber (ai )i∈I
i
ungleich der Null, zu denen kein Inverses existiert. Zum Beispiel ist A := K × K für
einen Körper K kein Körper, da es zu (1, 0) 6= 0 kein Inverses in K × K gibt:
Beispiel 8.6. Die externe direkte Summe Z2 × Z3 der beiden endlichen Körper Z2
und Z3 besteht aus den sechs Elementen:
(0, 0), (1, 0), (0, 1), (1, 1), (0, 2), (1, 2).
Die Addition und Multiplikation ist definiert als
(a1 , a2 ) + (b1 , b2 ) := (a1 + a2 mod 2, b1 + b2 mod 3)
(a1 , a2 ) · (b1 , b2 ) := (a1 · a2 mod 2, b1 · b2 mod 3).
Zwar ist Z2 × Z3 wie Z2 und Z3 ein Ring, aber kein Körper.
Für den Vektorraum Rn mit Unterraum U und orthogonalem Komplement U ⊥
gilt:
Rn = U ⊕ U ⊥ ' U × U ⊥ .
Der Isomorphismus Ψ : U × U ⊥ → Rn ist gegeben durch (u, v) 7→ u + v. Die Umkehrabbildung ist
Ψ−1 (x) = πU (x), πU⊥ (x)
mit den beiden Projektionen πU und πU⊥ aus dem Beweis zu Satz 8.1.
Wir charakterisieren die externe direkte Summe ×i∈I Ai ohne Bezug auf die Darstellung der Elemente (ai )i∈I zu nehmen. Die externe, direkte Summe ×i∈I Ai ist
L
isomorph zur inneren, direkten Summe ti=1 hi (Ai ) für geeignete Monomorphismen
(Injektionen) hi : Ai → A:
Satz 8.7. Sei (Ai )i∈I eine Familie von Mitgliedern einer algebraischen Struktur mit
einer kommutativen Addition. Es gilt
A ' × Ai
i∈I
genau dann, wenn es Monomorphismen (Injektionen) hi : Ai →PA für jedes i ∈ I
gibt, derart, dass jedes a ∈ A eine eindeutige Zerlegung2 a =
i∈I hi (ai ) hat mit
ai ∈ Ai , so dass ai = 0i (d.h. hi (ai ) = 0A ) für alle bis auf endlich viele i ∈ I.
Beweis. Wir zeigen beide Richtungen:
P
0
0
2Eindeutigkeit der Zerlegung heißt, dass aus P
i∈I hi (ai ) =
i∈I hi (ai ) folgt ai = ai .
2. Direkte Summe
87
⇒“ A ' ×i∈I Ai ⇒ die Zerlegungen
aus Satz 8.7 existieren.
L
”
Wir definieren zu A := ti=1 hi (Ai ) Abbildungen hi : Ai → A gemäß x 7→
(aj )j∈I mit
(
x falls i = j
aj :=
0 falls i 6= j.
P
Offenbar hat a := (aj )j∈I ∈ A die eindeutige Darstellung a = i∈I hi (ai ).
Die Summe ist endlich, denn nach Definition der externen Summe gilt ai =
0i , d.h. hi (ai ) = 0A , für alle bis auf endlich viele i ∈ I. Nach Voraussetzung
existiert ein Isomorphismus Ψ : ×i∈I Ai → A. Wir setzen die Injektion hi
fort zu
Ψ ◦ hi : A i → A
mit Ψ ◦ hi (ai ) = Ψ(h(ai )). Die Eindeutigkeit der Darstellung a =
hi (ai ) mit ai ∈ Ai überträgt sich beim Isomorphismus Ψ.
P
i∈I
Ψ◦
⇐“ Die Zerlegungen aus Satz 8.7 existieren ⇒ A ' ×i∈I Ai
”
Seien
hi : Ai → A Injektionen, so dass es eine eindeutige Zerlegung a =
P
i∈I hi (ai ) mit ai ∈ Ai gibt. Wir definieren einen Homomorphismus Ψ :
×i∈I Ai → A gemäß
X
Ψ ((ai )i∈I ) :=
hi (ai ).
i∈I
Die Summe ist endlich, weil bis auf endlich viele i ∈ I gilt ai = 0i und
hi (ai ) = 0A ∈ A. Die Abbildung Ψ ist surjektiv,
denn nach Voraussetzung
P
existiert zu jedem a ∈ A eine Zerlegung a = i∈I hi (ai ). Aus der Eindeutigkeit der Zerlegung folgt, dass Ψ injektiv ist. Die Abbildung Ψ : ×i∈I Ai → A
ist der gesuchte Isomorphismus.
Dies war zu zeigen.
Beispiel 8.8. Wir wollen Satz 8.7 anhand eines Beispieles verdeutlichen: Betrachte
Z2 × Z3 . Wir zeigen, dass Z6 ' Z2 × Z3 ist. Dazu definiere Monomorphismen
• h1 : Z2 → Z6 mit h1 (x) := 3x mod 6 und
• h2 : Z3 → Z6 mit h2 (x) := 4x mod 6.
Es gilt:
(
1 mod 2
3≡
0 mod 3
und
(
0 mod 2
4≡
1 mod 3.
Zu a ∈ Z6 ist nachzuweisen, dass eine eindeutige Zerlegung als (a1 , a2 ) ∈ Z2 × Z3 mit
a = h1 (a1 ) + h2 (a2 )
88
8. Direkte Summe
existiert. Setze a1 := a mod 2 und a2 := a mod 3. Aus der Tabelle
a ∈ Z6 a1 ∈ Z2 h1 (a1 ) ∈ Z6 a2 ∈ Z3 h2 (a2 ) ∈ Z6 h1 (a1 ) + h2 (a2 ) ∈ Z6
0
0
3·0=0
0
4·0=0
0+0=0
1
1
3·1=3
1
4·1=4
3+4=1
2
0
3·0=0
2
4·2=2
0+2=2
3
1
3·1=3
0
4·0=0
3+0=3
4
0
3·0=0
1
4·1=4
0+4=4
5
1
3·1=3
2
4·2=2
3+2=5
folgt die Behauptung. Diese Konstruktion gilt allgemein für das Produkt n von paarweise teilerfremden Zahlen q1 , q2 , . . . , qt :
Zn ' Zq1 × Zq2 × · · · × Zqt .
Diese Isomorphie heißt Chinesischer Restsatz und wird in den Vorlesungen über Al”
gebra“ und diskrete Mathematik“ vorgestellt.
”
Für unendliche Familien (Ai )i∈I definiert man das direkte Produkt im Unterschied
zur externen direkten Summe als
Y
Ai := {(ai | i ∈ I) | ai ∈ Ai } .
i∈I
Es ist ×i∈I Ai ⊆
Q
i∈I
Ai , für endliche Indexmengen I gilt die Gleichheit.
Kapitel 9
Volumina und
Determinanten
Die Determinante einer quadratischen Matrix ist eine dieser Matrix zugeordnete Zahl.
Diese Zuordnung, die Determinantenfunktion, hat charakteristische Eigenschaften,
die wir in diesem Kapitel untersuchen. Neben dem Nachweis der Existenz und der
Eindeutigkeit der Determinantenfunktion lernen wir Methoden zu ihrer Berechnung
kennen.
1. Volumina
Das Volumen von Körpern wie beispielsweise Quadern, Würfeln oder Kugeln im 3dimensionalen Raum ist ein aus der Schule bekannter Begriff. Wir verallgemeinern
den Begriff des Volumens vom R3 auf den Rn . Die resultierende Volumenfunktion
hat nahezu die Eigenschaften der Determinantenfunktion und motiviert so deren
Einführung.
Def inition 9.1 (Euklidische Länge). Sei b = (b1 , . . . , bn ) ∈ Rn . Dann heißt
v
u n
√
uX
kbk := t
b2i = bT b
i=1
die (euklidische) Länge1 von b. Wir betrachten dabei nur die positive Lösung der
Wurzel.
Volumina setzen die euklidische Länge als Norm voraus. Man sieht an dieser
Stelle bereits, warum wir uns auf die reellen Zahlen beschränken, denn für endliche
Körper hat die Länge keine geometrische Bedeutung. Im Rn dagegen gilt wegen b =:
(b1 , . . . , bn )T ∈ Rn , dass b = 0 genau dann, wenn kbk = 0.
1Die euklidische Länge ist ein Spezialfall der p-Norm mit p = 2. Wir untersuchen Normen
allgemein in Kapitel 11.
89
90
9. Volumina und Determinanten
Die Vorstellung, dass zwei Vektoren eine Fläche aufspannen, drei Vektoren einen
Quader, usw. erweitern wir auf den allgemeinen Fall. Dazu betrachten wir die Menge
aller Linearkombinationen mit Skalaren aus dem reellen Intervall [0, 1]:
Def inition 9.2 (Parallelepiped). Seien b1 , . . . , bn ∈ Rn . Dann nennen wir
( n
)
X
P (b1 , . . . , bn ) :=
ti bi t1 , . . . , tn ∈ R mit 0 ≤ t1 , . . . , tn ≤ 1
i=1
das von b1 , . . . , bn aufgespannte Parallelepiped (auch Parallelotop, Parallelflach).
Beispiel 9.3. Das Parallelepiped eines Vektors b1 ∈ Rn besteht aus allen Punkten
auf dem Geradenstück vom Nullpunkt zu b1 :
1 b1
0 Das Parallepiped zweier Vektoren b1 , b2 ∈ Rn besteht aus dem von den beiden Vektoren aufgespannten Flächenstück:
b2 b1
-
Stehen die Vektoren senkrecht aufeinander,
ist das Volumen von P (b1 , . . . , bn )
Q
gleich dem Produkt der Seitenlängen ni=1 kbi k. Im allgemeinen Fall ordnen wir einer
Folge von Vektoren b1 , . . . , bn ∈ Rn die Orthogonalvektoren (Höhen) b∗1 , . . . , b∗n ∈ Rn
wie folgt zu:
Def inition 9.4 (Orthogonalvektoren). Seien b1 , . . . , bn ∈ Rn . Dann setzen wir
Ui = span(b1 , . . . , bi−1 )
und ordnen b1 , . . . , bn die Orthogonalvektoren b∗1 , . . . , b∗n ∈ Rn zu mit
bi = (bi − b∗i ) + b∗i ∈ Ui ⊕ Ui⊥ .
Die Zerlegung der bi ist gemäß Satz 8.1 eindeutig. Es gilt:
bi − b∗i ∈ span(b1 , . . . , bi−1 )
und b∗i ∈ span(b1 , . . . , bi−1 )⊥ .
Für i < j gilt per Definition bTi b∗j = 0, also bi ⊥ b∗j und es ist span(b1 , . . . , bi ) =
span(b∗1 , . . . , b∗i ). Ein Orthogonalvektor b∗i steht damit senkrecht zu allen vorherigen
Vektoren b1 , . . . , bi−1 und der von den Orthogonalvektoren aufgespannte Raum ist der
gleiche wie der von den ursprünglichen Vektoren b1 , . . . , bn aufgespannte Raum. Man
beachte, dass sich die Parallelepipede P (b1 , . . . , bn ) und P (b∗1 , . . . , b∗n ) unterscheiden,
das Volumen der Parallelepipede jedoch gleich bleibt.
1. Volumina
91
Beispiel 9.5. Wir verdeutlichen uns die Situation für zwei Vektoren b1 , b2 ∈ Rn
anhand einer Zeichnung:
6
b∗2
b2
-
b1 = b∗1
Hier wird deutlich, warum nicht nur die linearen Hüllen der Vektoren und ihrer Orthogonalvektoren gleich sind, sondern auch, warum sich das Volumen beim Übergang
zu den Orthogonalvektoren nicht ändert.
Def inition 9.6 (Volumen). Seien b1 , . . . , bn ∈ Rn und b∗i , . . . , b∗n ∈ Rn die zugehörigen Orthogonalvektoren. Dann heißt
n
Y
vol P (b1 , . . . , bn ) =
kb∗i k
i=1
das Volumen von P (b1 , . . . , bn ).
Wir kommen zu den Eigenschaften des Volumens, die im Wesentlichen auch die
der Determinantenfunktion sein werden:
Lemma 9.7 (Eigenschaften des Volumens). Seien b1 , . . . , bn ∈ Rn , λ ∈ R und i 6= j.
Dann gilt:
(V1) vol P (b1 , . . . , bi + λbj , . . . , bn ) = vol P (b1 , . . . , bi , . . . , bn ).
(V2) vol P (b1 , . . . , λbi , . . . , bn ) = |λ| · vol P (b1 , . . . , bi , . . . , bn ).
(V3) {b1 , . . . , bn } linear abhängig
=⇒
vol P (b1 , . . . , bn ) = 0.
(V4) P (b1 , . . . , bn ) = P (bσ(1) , . . . , bσ(n) ) für alle Permutationen σ ∈ Sn .
Beweis. Seien b1 , . . . , bn ∈ Rn , λ ∈ R und i 6= j.
(V1) O.B.d.A. sei j < i (denn wegen (V4) ändert sich das Volumen für j > i
nicht). Dann gilt
b∗i = (bi + λbj )∗ ∈ span(b1 , . . . , bi−1 )⊥
Mit anderen Worten: Der Orthogonalvektor b∗i steht senkrecht zu allen
vorherigen Vektoren b1 , . . . , bi−1 und deswegen auch zu allen Linearkombinationen dieser Vektoren. Somit bleibt das Volumen gleich, wenn man das
skalare Vielfache eines Vektors zu einem anderen Vektor addiert.
(V2) Es gilt (λbi )∗ = λ(b∗i ). In der Produktbildung in Definition 9.6 können wir
den Skalar im Betrag herausziehen: kλb∗i k = |λ| · kb∗i k.
(V3) O.B.d.A. sei {b1 , . . . , bi−1 } linear unabhängig und {b1 , . . . , bi } linear abhängig
(denn mit (V4) können die Vektoren vertauscht werden). Dann läßt sich bi
als Linearkombination von b1 , . . . , bi−1 darstellen und der orthogonale Anteil
von bi ist 0, also b∗i = 0 und die Behauptung folgt.
Die letzte Aussage gilt trivialerweise.
92
9. Volumina und Determinanten
2. Determinanten
Die geometrische Anschauung des Volumens setzt reelle Vektorräume voraus. Für
beliebige Körper K verallgemeinert man die Volumenfunktion zur vorzeichenbehafteten Determinantenfunktion. Wir identifizieren Kn×n ∼
= Mn,n (K) und definieren die
Determinantenfunktion axiomatisch durch ihre Eigenschaften:
Def inition 9.8 (Determinantenfunktion). Eine Abbildung
 
z1
 .. 
det : Mn,n (K) → K, M =  .  7→ det M
zn
heißt Determinantenfunktion, wenn für λ ∈ R und i 6= j gilt:

 

z1
z1
 .. 


..

.

.
 





(D1) det zi + λzj  = det 
 zi 
 .. 


..
.


.
zn
zn
 
 
z1
z1
 .. 
 .. 
 . 
.
 
 

 
(D2) det 
λzi  = λ det  zi 
 .. 
 .. 
 . 
.
zn
zn
(D3) det In = 1
Wir zeigen in Satz 9.12, dass die Determinantenfunktion durch (D1) – (D3) eindeutig charakterisiert ist. Um die Analogie zu den Eigenschaften der Volumenfunktion
zu verdeutlichen, leiten wir weitere Eigenschaften, aus (D1)–(D3) her. Während die
Beziehung zwischen (V1) und (D1) bzw. (V2) und (D2) unmittelbar ersichtlich ist —
der einzige Unterschied findet sich im Fehlen des Betrags des Skalars — trifft dies für
(V3) und (D3) nicht zu. Wir zeigen daher die folgende Ergänzung zu (D3):
Lemma 9.9. Sei A ∈ Mn,n (K). Dann gilt:
(D3’) Aus rang A < n folgt det A = 0.
Beweis. Seien z1 , . . . , zn ∈ M
P1,n (K) die Zeilenvektoren von A ∈ Mn,n (K) mit
rang A < n. O.B.d.A. sei z1 = ni=2 λi zi . Dann gilt:

 
 
Pn
0
0
i=2 λi zi






z
z
z
2
 (D1)
 2  (D2)
 2

det A = det 
 = det  ..  = 0 · det  ..  = 0.
..

.
.

.
zn
Es folgt die Behauptung.
zn
zn
2. Determinanten
93
Wir kommen zum Analogon von (V4), der Schiefsymmetrie. Die Determinante wechselt beim Vertauschen zweier Zeilen das Vorzeichen.
Lemma 9.10. Seien z1 , . . . , zn ∈ M1,n (K) Zeilenvektoren einer quadratischen Matrix. Dann gilt für i 6= j:
 
 
z1
z1
 .. 
 .. 
.
.
 
 
 zi 
 zj 
 
 
 .. 
 
(D4) det  .  = − det  ... .
 
 
 zj 
 zi 
 
 
 .. 
 .. 
.
.
zn
zn
Beweis. Es gilt:
 






 
..
..
..
..
..
.
.
.
.
 





.

 zi 
 zi 
 −zj 
−zj 
 zj 
  (D1)





 

 .. 
 ..  (D1)
 ..  (D1)
 ..  (D2)
 
det  .  = det  .  = det  .  = det  .  = − det  ...  .
 






 
zj 
zj + zi 
 zj + zi 
 zi 
 zi 
 






 
..
..
..
..
..
.
.
.
.
.
Dies war zu zeigen.
Die Determinantenfunktion ist nicht nur im Sinne von (D2) linear, sondern sie ist
auch in jeder Zeile linear:
Lemma 9.11. Seien z1 , . . . , zn ∈ M1,n (K) Zeilenvektoren einer Matrix. Dann gilt


 
 
z1
z1
z1
 .. 
 .. 
 .. 
 . 
.
.


 
 0
0





(D5) det zi + zi  = det  zi  + det 
 zi 
 .. 
 .. 
 .. 
 . 
.
.
zn
zn
zn
Eine Funktion die (D2) und (D5) erfüllt heißt multilinear.
Beweis. Seien z1 , . . . , zn ∈ M1,n (K) Zeilenvektoren einer Matrix und
 
 
z1
z1
 .. 
 .. 
.
.
 0
 
0


Z := 
Z := 
 zi 
 zi  .
 .. 
 .. 
.
.
zn
zn
94
9. Volumina und Determinanten
Falls rang Z < n und rang Z 0 < n gilt, ist auch


z1
 .. 
 . 


0
rang 
 zi + z i  < n
 .. 
 . 
zn
und alle in Lemma 9.11 auftretenden Determinanten sind 0. Sei im weiteren rang Z =
n oder rang Z 0 = n. Wir können o.B.d.A. rang Z = n annehmen. Dann ist
{z1 , . . . , zi , . . . , zn }
eine Basis des Kn und zi0 läßt sich darstellen als zi0 =
n
P
λi zi . Es folgt:
i=1
 
 
 



z1
z1
z1
z1
z1
 .. 
 .. 
 .. 


 .. 
..
.
.


.
 . 
.
 0
 
 
(D1)

(D2)

0









detzi + zi  = detzi + λi zi  = (1 + λi ) det zi = det zi  + det
 zi  .
 .. 
 .. 
 .. 


 .. 
..
.
.
.


 . 
.
zn
zn
zn
zn
zn

Wir vergewissern uns, dass (D1) – (D3) die Determinantenfunktion eindeutig charakterisieren:
Satz 9.12 (Eindeutigkeit der Determinantenfunktion). Es gibt höchstens eine Determinantenfunktion.
Beweis. Seien det, det0 : Mn,n (K) → K Determinantenfunktionen. Wir zeigen, dass
beide Abbildungen identisch sind, d.h. für alle A ∈ Mn,n (K) gilt det A = det0 A. Für
rang A < n gilt mit (D3’) det A = det0 A = 0. Sei also rang A = n.
Da A vollen Rang hat, benötigt der Gauß-Algorithmus keine Spaltenvertauschungen, kommt also nur mit Zeilenvertauschungen aus; denn würde bei der Transformation von A eine Spalte mit ar,r = ar+1,r = . . . = an,r = 0 auftreten (und nur dann
ist eine Spaltenvertauschung notwendig), wäre rang A < n. Aus der transformierten
Matrix A0 des Gauß-Verfahrens erhalten wir durch weitere elementare Zeilentransformationen eine Diagonalmatrix A00 :
 0

 0

a11 ∗ · · ·
∗
a11 0 · · ·
0


.. 
.. 
 0 ... ...
 elementare
 0 ... ...
.
. 
Gauß0
00
 −−−−−−−→ A = 

A −−−−−−−→ A = 




.
.
..
..
..
..
Algorithmus
 ..
 ..
.
.
.
.
∗  Zeilentransf.
0 
0 · · · 0 a0nn
0 · · · 0 a0nn
Da diese Transformationen den Rang unverändert lassen, gilt rang A00 = n. Wir betrachten die Auswirkungen auf die Determinante von A, wobei s ∈ N die Anzahl der
3. Permutationen und Leibniz’sche Determinantenformel
95
Zeilenvertauschungen im Gauß-Verfahren sei. Es gilt
det A
(D1),(D4)
=
(−1)s det A0
(D1)
(−1)s det A00
(D2)
(−1)s a11 · · · ann det In
(D3)
(−1)s a11 · · · ann ,
=
=
=
sowie
det0 A
(D1),(D4)
=
(−1)s det0 A0
(D1)
(−1)s det0 A00
(D2)
(−1)s a11 · · · ann det0 In
(D3)
(−1)s a11 · · · ann .
=
=
=
Wir erhalten det A = det0 A.
Aus der Leibniz’sche Determinantenformel, die wir in Satz 9.25 auf Seite 97 beweisen,
folgt, dass die Determinantenfunktion auch existiert. Da die Determinantenfunktion
jeder quadratischen Matrix A genau einen Wert det A zuordnen, sprechen wir von der
Determinante der Matrix A.
Mit dem Wissen der Existenz lassen sich weitere Aussagen aus dem Beweis von
Satz 9.12 ableiten:
Korollar 9.13 (Determinante einer Diagonalmatrix). Sei D ∈ Mn,n (K) eine Diagonalmatrix mit Diagonalelementen d11 , . . . , dnn . Dann gilt:
n
Y
det D =
dii = d11 · · · dnn .
i=1
Ferner erhalten wir folgendes Invertierbarkeitskriterium für Matrizen:
Korollar 9.14. Für quadratische Matrizen A ∈ Mn,n (K) sind die folgenden Aussagen äquivalent:
a) A ∈ GLn (K), d.h. A ist invertierbar.
b) rang A = n.
c) det A 6= 0.
Wir können die Determinante effizient berechnen:
Korollar 9.15. Mit dem Gauß-Algorithmus läßt sich die Determinante einer n × n
Matrix in O(n3 ) Schritten berechnen.
3. Permutationen und Leibniz’sche
Determinantenformel
Um die Existenz der Determinantenfunktion zu zeigen, befassen wir uns mit Permutationen und ihren Eigenschaften. Eine Permutation ist eine bijektive Abbildung
einer Menge in sich. Da die Benennung der Mengenelemente hier keine Rolle spielt,
96
9. Volumina und Determinanten
betrachten wir O.B.d.A. Abbildungen der Menge {1, 2, . . . , n} ⊂ N in sich. Die Menge
aller Permutationen auf {1, . . . , n} bezeichnet man mit Sn . Die Mächtigkeit von Sn ,
d.h. die Anzahl der Permutationen, ist n! = n · (n − 1) · · · 2 · 1 (Fakultät von n).
Zusammen mit der Hintereinanderausführung (Konkatenation) als Operation ist Sn
eine Gruppe:
Def inition 9.16 (Symmetrische Gruppe Sn ). Für X = {1, . . . , n} heißt
Sn := {σ ∈ Abb(X, X) | σ bijektiv }
die symmetrische Gruppe Sn .
Die Konkatenation von Permutationen bezeichnet man als Produkt von Permutationen. Wir kennzeichnen besonders einfache Arten von Permutationen:
Def inition 9.17 (Transposition, Nachbartransposition). Eine Permutation, die nur
zwei Elemente vertauscht, heißt Transposition. Eine Transposition, die zwei aufeinanderfolgende Elemente i und i + 1 vertauscht, heißt Nachbartransposition.
Man bezeichnet für i 6= j die Transposition, welche i und j vertauscht, mit (i, j).
Eine Nachbartransposition ist entsprechend eine Transposition der Form (i, i + 1).
Offenbar ist jede Permutation als Produkt von Transpositionen darstellbar. Da
sich jede Transposition als Produkt von Nachbartranspositionen darstellen läßt (man
tauscht das kleinere“ Element solange nach oben“, bis es an seinem Platz angekom”
”
men ist), gilt:
Satz 9.18. Jede Permutation läßt sich als Produkt von Nachbartranspositionen darstellen.
Def inition 9.19 (Fehlstand). Sei σ ∈ Sn und i, j ∈ {1, . . . , n}. Dann heißt ein Paar
(i, j) mit
i<j
und
σ(i) > σ(j)
ein Fehlstand von σ. Die Anzahl der Fehlstände von σ bezeichnen wir mit
f (σ) := |{(i, j) | i < j und σ(i) > σ(j) }| .
Für die Anzahl der Fehlstände von Transpositionen und Nachbartranspositionen gilt:
Lemma 9.20. Sei σ = (i, j) ∈ Sn eine Transposition mit i < j und τ ∈ Sn eine
Nachbartransposition. Dann gilt:
a) f (σ) = 2(j − i − 1) + 1.
b) f (τ σ) = f (σ) ± 1.
Beweis. Sei σ = (i, j) ∈ Sn Transposition mit i < j und τ ∈ Sn Nachbartransposition. Die Fehlstände von σ sind
• (i, x) mit i < x < j
• (y, j) mit i < y < j
• (i, j).
3. Permutationen und Leibniz’sche Determinantenformel
97
Damit ergeben sich insgesamt j − i − 1 + j − i − 1 + 1 = 2(j − i − 1) + 1 Fehlstände.
Die zweite Behauptung wird in Übungsaufgabe 12.4 gezeigt.
Mit den beiden Aussagen aus Lemma 9.20 charakterisieren wir eine Klasse von Transpositionen:
Korollar 9.21. Sei σ ∈ Sn . Dann sind folgende Aussagen äquivalent:
a) f (σ) ist gerade.
b) Sind τ1 , . . . , τn Nachbartranspositionen mit σ = τ1 · · · τn , so ist n gerade.
c) σ ist Produkt einer geraden Anzahl von Nachbartranspositionen.
Korollar 9.21 läßt sich auch für ungerade Anzahlen von Fehlständen formulieren.
Wir nennen eine Permutation gerade bzw. ungerade, wenn die Anzahl ihrer Fehlstände
gerade bzw. ungerade ist und ordnen ihr ein entsprechendes Vorzeichen (Signum) zu:
Def inition 9.22 (Signum). Sei σ ∈ Sn eine Permutation. Dann heißt
sig(σ) := (−1)f (σ) ∈ {−1, +1}
das Signum von σ. Wir nennen σ gerade, falls f (σ) gerade ist und ungerade, falls
f (σ) ungerade ist.
Die geraden Permutationen bilden eine Untergruppe von Sn , die sogenannte alternierende Gruppe:
Def inition 9.23 (Alternierende Gruppe). Wir nennen
An := {σ ∈ Sn | σ gerade} = sig−1 (+1)
die alternierende Gruppe.
Weil die Abbildung ψ : An → Sn \ An , τ 7→ στ bijektiv ist, folgt:
Lemma 9.24. Sei σ ∈ Sn \ An . Dann gilt
Sn = An ∪ σAn = An ∪ {στ | τ ∈ An } ,
und es ist |An | = 21 n!.
Eine Formel zur Berechnung der Determinante wurde bereits 1690 von Leibniz2
entwickelt. Ihre Bedeutung liegt jedoch nicht in der Berechnung konkreter Determinanten, sondern in ihrer Rolle in Beweisen.
Satz 9.25 (Leibniz’sche Determinantenformel). Sei A = (aij ) ∈ Mn,n (K). Dann gilt
X
det A =
sig(σ)a1,σ(1) · · · an,σ(n) .
σ∈Sn
2Gottfried Wilhelm Leibniz, 1646-1716. Bedeutender Naturwissenschaftler und Philosoph.
Mitbegründer der Infinitesimalrechnung.
98
9. Volumina und Determinanten
Insbesondere folgt aus Satz 9.25 die Existenz der Determinantenfunktion. Für n = 2
liefert die Leibniz’sche Determinantenformel:
a b
det
= ad(−1)0 + bc(−1)+1 = ad − bc.
c d
Die folgende Regel für n = 3 ist auch als Sarrus’sche Regel 3 bekannt:


a11 a12 a13
a11 a22 a33 + a12 a23 a31 + a13 a21 a32
det a21 a22 a23  =
−a13 a22 a31 − a23 a32 a11 − a33 a12 a21 .
a31 a32 a33
Man erhält sie aus den 3! = 6 in der Leibniz-Formel auftretenden Permutationen.
Eine Merkregel dafür lautet Hauptdiagonalen (&) minus Nebendiagonalen (.)“:
”
a11 a12 a13 a11 a12
a11 a12 a13 a11 a12
a21 a22 a23 a21 a22
a21 a22 a23 a21 a22
a31 a32 a33 a31 a32
a31 a32 a33 a31 a32
|
{z
}
|{z}
|
{z
}
a11 a22 a33 +a12 a23 a31 +a13 a21 a32
−
(a13 a22 a31 +a23 a32 a11 +a33 a12 a21 )
Für Dreiecksmatrizen erhalten wir die aus Korollar 9.13 auf Seite 95 bekannte Formel


a11 ∗ · · ·
∗

..  Y
n
 0 ... ...
. 
=
det 
aii ,
 ..

..
..
 .
.
.
∗  i=1
0 · · · 0 ann
denn für alle Permutationen σ ∈ Sn außer der Identität gibt es ein i mit σ(i) < i und
somit ai,σ(i) = 0.
Beweis. Wir beweisen die Leibniz’sche Determinantenformel, Satz 9.25, durch Nachweis der Eigenschaften (D1)–(D3) für
X
det : Mn,n (K) → K, A 7→
sig(σ)a1,σ(1) · · · an,σ(n) .
σ∈Sn
Sei A ∈ Mn,n (K) Matrix mit Zeilenvektoren z1 , . . . , zn ∈ M1,n (K).
(D1) Wir zeigen zuerst, dass det“ in jeder Zeile linear ist:
”

 
 
z1
z1
z1


 .. 
 .. 
..


.
.
.


 
 





det zi + λzj  = det  zi  + λ det 
 zj 


 .. 
 .. 
..


.
.
.
zn
zn
zn
Dies folgt, da für jede Permutation σ ∈ Sn gilt:
a1,σ(1) · · · (aj,σ(j) + λaj,σ(j) ) · · · an,σ(n)
= a1,σ(1) · · · aj,σ(j) · · · an,σ(n) + a1,σ(1) · · · λaj,σ(i) · · · an,σ(n) .
3Pierre-Frédéric Sarrus, 1798–1858.
4. Eigenschaften
99
Bleibt zu zeigen, dass det A0 = 0 für
 
z1
 .. 
.
 
 zj 
 
 
0
A =  ...  ∈ Mn,n (K).
 
 zj 
 
 .. 
.
zn
Die Matrix A0 enthält die Zeile zj zweimal, nämlich in der i-ten und in
der j-ten Zeile. Sei τ = (i, j) ∈ Sn diejenige Transposition, welche i und j
vertauscht. O.B.d.A. gelte i < j. Laut Lemma 9.24 stellt
Sn = An ∪ An τ
eine Zerlegung (Partition) von Sn dar. Jede Permutation σ ∈ Sn ist entweder
gerade (σ ∈ An ) oder von der Form σ 0 τ mit σ = σ 0 τ , σ 0 ∈ An . Damit gilt:
X
det A0 =
sig(σ)a01,σ(1) · · · a0n,σ(n)
σ∈Sn
=
X
sig(σ)a01,σ(1) · · · a0n,σ(n) +
sig(στ )a01,στ (1) · · · a0n,στ (n) .
σ∈An
σ∈An
Mit sig σ = 1 und
X
sig σ 0 τ
= −1 folgt:
det A0
X
X
a01,σ(1) · · · a0n,σ(n) −
a01,στ (1) · · · a0i,στ (i) · · · a0j,στ (j) · · · a0n,στ (n)
=
σ∈An
σ∈An
=
X
a01,σ(1) · · · a0n,σ(n) −
σ∈An
X
a01,σ(1) · · · a0i,σ(j) · · · a0j,σ(i) · · · a0n,σ(n)
σ∈An
= 0.
Die Leibniz’sche Determinantenformel ist linear in jeder Zeile.
(D2) Mit gleichem Argument wie in (D1) (Linearität in jeder Zeile) folgt auch
(D2).
(D3) Für die Einheitsmatrix gilt, dass es zu jeder Permutation σ ∈ Sn außer der
Identität ein i gibt mit σ(i) 6= i und damit ai,σ(i) = 0. Also ist
det In = a11 · · · ann = 1.
Aus Satz 9.12 über die Eindeutigkeit der Determinantenfunktion folgt die Behauptung.
4. Eigenschaften
Wir beschäftigen uns mit weiteren Eigenschaften der Determinantenfunktion. Zuerst
zeigen wir, dass alle bisherigen Aussagen auch für die Spalten einer Matrix gelten:
Satz 9.26. Es gilt det A = det AT .
100
9. Volumina und Determinanten
Beweis. Sei A ∈ Mn,n (K), σ ∈ Sn . Da Permutationen bijektiv sind, gilt in der
Leibnizformel aus Satz 9.25 auf Seite 97:
a1,σ(1) · · · an,σ(n) = aσ−1 (1),1 · · · aσ−1 (n),n .
Für das Vorzeichen gilt sig(σ) = sig(σ −1 ). Aus
X
X
det A =
aσ−1 (1),1 · · · aσ−1 (n),n sig(σ −1 ) =
aσ(1),1 · · · aσ(n),n sig(σ) = det AT
σ −1 ∈Sn
σ∈Sn
folgt die Behauptung.
Korollar 9.27. Die Eigenschaften (D1)-(D5) der Determinantenfunktion gelten analog für die Spalten einer Matrix.
Die Streichungsmatrix
Matrix

a11 · · · a1j
 ..
..
 .
.

a
·
·
·
a
A0ij := 
ij
 i1
 ..
..
 .
.
an1 · · · anj
A0ij ∈ Mn−1,n−1 (K) zu A = (aij ) ∈ Mn,n (K) ist erkärt als die
···
···
···

a1,1
a1n
 ..
..   .

. 
 ai−1,1

ain 
=
 
..  ai+1,1
.
.  
 ..
ann
an,1

···
···
···
a1,j−1
..
.
a1,j+1
..
.
···
ai−1,j−1 ai−1,j+1 · · ·
ai+1,j−1 ai+1,j+1 · · ·
..
..
.
.
···
an,j−1
an,j+1
···

ann
.. 
. 

ai−1,n 
,
ai+1,n 

.. 
. 
an,n
die durch Streichen der i-ten Zeile und j-ten Spalte in A entsteht. Durch Umstellung
der Leibniz’schen Determinantenformel erhält man den Satz von Laplace4:
Satz 9.28 (Entwicklungssatz von Laplace). Sei A = (aij ) ∈ Mn,n (K). Dann gilt:
a) Entwicklung nach der i-ten Zeile: det A =
n
P
(−1)i+j aij det A0ij .
j=1
n
P
b) Entwicklung nach der j-ten Spalte: det A =
i=1
(−1)i+j aij det A0ij .
Der Entwicklungssatz reduziert den Rechenaufwand nicht notwendigerweise, denn
es treten n Determinanten der Größe n − 1 auf; berechnet man diese mit der Leibniz’schen Determinantenformel, so ergeben sich die n(n − 1)! = n! Permutationen
der Leibnizformel für die ursprüngliche Matrix. Durch eine geschickte Wahl der Zeile
bzw. Spalte, nach der man entwickelt, kann man die Determinante effizienter berechnen (man wähle beispielsweise Zeilen oder Spalten mit vielen Nullen).
Sei K ein Körper und a1 , . . . , an ∈ K. In einem Induktionsbeweis zeigt man mit
Hilfe geschickter Zeilenoperationen und des Entwicklungssatzes von Laplace für die
4Pierre Simon Laplace, 1749–1827, war ein bedeutender französischer Mathematiker und Na-
turforscher. Er verfaßte wichtige Arbeiten auf den Gebieten der Wahrscheinlichkeitsrechnung, wo er
die sogenannte Laplace-Transformation einführte, und der Astronomie. In seinem Hauptwerk, der
fünfbändigen Mécanique céleste“ ( Himmelsmechanik“), finden sich Untersuchungen zu Kugelfunk”
”
tionen, konfokalen Flächen zweiter Ordnung, der sogenannten Laplace-Gleichung, zur Potentialtheorie
und zu partiellen Differentialgleichungen. Durch seinen politischen Opportunismus brachte er es bis
zum Marquis und Pair von Frankreich.
4. Eigenschaften
101
Vandermonde-Matrix (Übungsaufgabe 11.1):

1
1
···
 a1
a2

det Vn (a1 , . . . , an ) = det  ..
..
 .
.
n−1
an−1
a
···
1
2

1
an
..
.
ann−1
 Y

(ai − aj ) .
=

i>j
Vergleiche das Resultat mit Korollar 4.31 auf Seite 56.
Def inition 9.29 (Minor).
nennen wir

a1,1
 ..
 .

ai−1,1

Aij := 
 0
ai+1,1

 ..
 .
Zu einer quadratischen Matrix A = (aij ) ∈ Mn,n (K)
an,1
···
···
···
···
···
a1,j−1
..
.
0
..
.
···
a1,j+1
..
.
···
···
···
ai−1,j−1 0 ai−1,j+1
0
1
0
ai+1,j−1 0 ai+1,j+1
..
..
..
.
.
.
an,j−1 0 an,j+1
···

a1,n
.. 
. 

ai−1,n 

0 

ai+1,n 

.. 
. 
an,n
Minor von A.
Def inition 9.30 (Adjunkte). Zu einer quadratischen Matrix A = (aij ) ∈ Mn,n (K)
nennen wir


det A11 · · · det An,1


..
..
T
adj(A) := 
 = (det Aji ) = (det Aij )
.
.
det A1,n · · ·
det An,n
die Adjunkte (auch komplementäre Matrix) von A.
Lemma 9.31. Sei A ∈ Mn,n (K). Dann gilt:
a) A · adj(A) = det(A) · In .
b) Falls A regulär, dann A−1 =
adj(A)
det A .
Beweis. Sei A ∈ Mn,n (K). Für die Komponenten von A · adj(A) gilt mit dem Entwicklungssatz von Laplace 9.28:
X
n
A · adj(A) =
aik det Ajk
=
k=1
n
X
k=1
=
X
n
k=1
1≤i,j≤n
aik
X
n
j+`
(−1)
·0·
det A0j`
j+k
+ (−1)
`=1,`6=k
aik (−1)j+k det A0jk
·1·
det A0jk
!
1≤i,j≤n
(16)
1≤i,j≤n
Für den Eintrag (i, j) der Matrix A · adj(A) gilt:
(
det A falls i = j
A · adj(A) i,j =
0
falls i 6= j
102
9. Volumina und Determinanten
Der erste Fall folgt aus Satz 9.28, denn für i = j ist Gleichung (16) gerade die
Entwicklung nach der i-ten Zeile. Für den zweiten Fall sei


a1,1 · · ·
a1,n
 ..
.. 
 .
. 


 ai,1
···
ai,n 


 ..
.. 
 .
. 


Ā := aj−1,1 · · · aj−1,n  ∈ Mn,n (K)


 ai,1
···
ai,n 


aj+1,1 · · · aj+1,n 


 ..
.. 
 .
. 
an,1 · · ·
an,n
die Matrix, welche aus A entsteht, wird die j-te Zeile durch die i-te Zeile ersetzt.
Entwicklung nach der j-ten Zeile liefert
det Ā =
n
X
(−1)j+k aik det A0jk = 0,
k=1
denn Ā hat zwei gleiche Zeilen (und damit ist rang Ā < n). Die zweite Aussage folgt
mit Division durch det A direkt aus der ersten.
Aus Lemma 9.31 folgt, dass man für reguläre Matrizen die Lösung der dazugehörigen
linearen Gleichunggsysteme angeben kann, wenn die Determinante und die Adjunkte
der Matrix bekannt sind:
Korollar 9.32 (Cramer’sche Regel). Sei A ∈ Mn,n (K) invertierbar und b ∈ Kn .
Dann gilt für die Lösung von Ax = b:
x=
adj(A)
·b
det A
n
xj =
1 X
det Aij bi .
det A
i=1
Für die Berechnung dieser Lösung auf Computern sind Abschätzungen der Größen
der auftretenden Zahlen von Bedeutung. Eine solche Abschätzung für x lautet:
Korollar 9.33. Sei A = (aij ) ∈ Mn,n (K) invertierbar und b ∈ Kn sowie |aij | , |bi | ≤
B für 1 ≤ i, j ≤ n. Dann gilt für die Lösung von Ax = b
nn B n
|xi | ≤
,
det A
insbesondere ist |xi | ≤ nn B n für ganzzahlige A, b.
Beweis. Die Abschätzung folgt aus Korollar 9.32, |bi | ≤ B und
|det Aij | ≤ (n − 1)!B n−1 .
Letzteres ergibt sich aus der Leibnizformel, denn entwickelt man Aij nach der i-ten
Zeile, so treten für die resultierende Matrix A0ij genau (n − 1)! Permutationen von je
n − 1 Matrixeinträgen in der Leibnizformel auf.
Eine wichtige Eigenschaft der Determinante ist ihre Multiplikativität.
4. Eigenschaften
103
Satz 9.34 (Multiplikativität der Determinante). Seien A, B ∈ Mn,n (K). Dann gilt:
det(A · B) = det A · det B.
Beweis. Falls eine oder beide Matrizen nicht vollen Rang haben, ist det A = 0 oder
det B = 0 und somit det A · det B = 0. Nach Übungsaufgabe 8.3 gilt rang(AB) < n
und die Behauptung folgt.
Wir setzen voraus im weiteren voraus, dass beide Matrizen vollen Rang haben.
Nach Beweis von Satz 9.12 auf Seite 94 läßt sich A durch elementare Zeilenoperationen
(insbesondere ohne Spaltenvertauschungen) in die Einheitsmatrix überführen. Damit
gibt es Elementarmatrizen T1 , . . . , Tt ∈ Mn,n (K), so dass
Tt Tt−1 · · · T1 A = In .
Da Elementarmatrizen invertierbar sind, ist A = T1−1 · · · Tt−1 . Wir zeigen, dass für
jede Elementarmatrix Ti−1 gilt
det(Ti−1 B) = det Ti−1 det B
(17)
und die Behauptung folgt. Wir betrachten die drei Typen von Elementarmatrizen:
• Für Tij (λ) gilt mit (D1), dass det Tij (λ) = det In = 1 und Gleichung (17)
folgt.
• Für Ti (λ) gilt mit (D2), dass det Ti (λ) = λ det In = λ und Gleichung (17)
folgt.
• Für Vij folgt Gleichung (17) aus (D4).
Dies war zu zeigen.
Auch über die Determinante von Matrizen einer bestimmten Gestalt kann man Aussagen treffen, beispielsweise über die Determinante von Kastenmatrizen:
Lemma 9.35. Seien A1 , . . . , At Matrizen über

A1
0 ··· 0

.
..
 0 A
. ..

2
det  .
.. ..
 .
.
.
0
 .
0
· · · 0 At
K. Dann gilt


t
 Y

det Ai
=

 i=1
Beweis. Die Behauptung folgt aus der Leibniz’schen Determinantenformel, denn alle
Permutationen, die Matrixeinträge enthalten, die gleich Null sind, tragen zur Summe,
also der Determinante, nichts bei. Bleiben nur diejenigen Permutationen übrig, die
lediglich Einträge innerhalb der Ai vertauschen. Dies sind aber die Permutationen
von det A1 , . . . , det At .
Da die Addition des skalaren Vielfachen einer Zeile zu einer anderen Zeile die Determinante nicht ändert, gilt:
104
9. Volumina und Determinanten
Satz 9.36 (Kästchensatz). Seien A1 , . . . , At Matrizen über K. Dann gilt


A1
∗ ··· ∗

.  Y
..
t
 0 A
. .. 


2
det  .
det Ai
=
.. ..
 .

.
.
∗  i=1
 .
0
· · · 0 At
Im allgemeinen gilt jedoch für Matrizen A, B, C, D ∈ Mn,n (K):
A B
det
6= det A · det D − det B · det C.
C D
Kapitel 10
Normalformen und
Eigenwerte
Wir haben in Kapitel 6 gesehen, dass jede lineare Abbildung durch eine Matrix darstellbar ist. In diesem Abschnitt leiten wir durch geeignete Basenwahl einfache bzw.
kanonische Darstellungsmatrizen her.
1. Eigenwerte und Eigenvektoren
Wir fassen diejenigen Matrizen zu Klassen zusammen, die den gleichen Endomorphismus bezüglich verschiedener Basen des Kn darstellen. Man definiert dazu die folgende
Äquivalenzrelation:
Def inition 10.1 (Ähnliche Matrizen). Zwei Matrizen A, B ∈ Mn,n ( K ) heißen ähnlich, A ∼ B, wenn es eine invertierbare Matrix T ∈ GLn (K) gibt mit
A = T −1 BT.
Die Ähnlichkeitsrelation ist eine Äquivalenzrelation (siehe Definition 2.30 auf Seite
28):
Satz 10.2. Die Ähnlichkeitsrelation ist eine Äquivalenzrelation auf Mn,n (K).
Beweis. Seien A, B, C ∈ Mn,n (K). Wir zeigen die Eigenschaften einer Äquivalenzrelation: Aus A = In−1 AIn = In AIn = A folgt die Reflexivität: A ∼ A. Sei A ∼ B,
d.h. A = T BT −1 . Dann gilt T −1 AT = B, also B ∼ A, so dass die Ähnlichkeitsrelation
die Symmetrie-Eigenschaft A ∼ B ⇐⇒ B ∼ A erfüllt. Zu zeigen bleibt die Transitivität: Aus (A ∼ B) und (B ∼ C) folgt A ∼ C. Sei A = T BT −1 und B = SCS −1 .
Dann gilt
A = T BT −1 = T SCS −1 T −1 = (T S)C(T S)−1 .
Nach Satz 5.5 auf Seite 61 sind T S und (T S)−1 regulär, so dass A ∼ C.
105
106
10. Normalformen und Eigenwerte
Wir zeichnen diejenigen linearen Abbildungen aus, die sich — bei geeigneter Basiswahl
— durch möglichst einfache Matrizen darstellen lassen:
Def inition 10.3 (Diagonalisierbarkeit). Eine quadratische Matrix heißt diagonalisierbar, wenn sie zu einer Diagonalmatrix ähnlich ist. Eine lineare Abbildung heißt
diagonalisierbar, wenn es eine Basis gibt, so dass ihre Darstellungsmatrix eine Diagonalmatrix ist.
Zur Untersuchung der Diagonalisierbarkeit verwenden wir Eigenwerte und Eigenvektoren. Dabei handelt es sich um Vektoren, bei denen eine lineare Abbildung einer
Multiplikation mit einem Skalar (einem Eigenwert) entspricht. Die Eigenvektoren sind
also diejenigen Vektoren, die von der linearen Abbildung gestreckt werden.
Def inition 10.4 (Eigenwert, Eigenvektor). Sei A ∈ Mn,n (K) eine quadratische Matrix. Dann nennen wir einen Skalar λ ∈ K einen Eigenwert von A, wenn es einen
Vektor v ∈ Kn \ {0} gibt mit
Av = λv.
Ein solcher Vektor v heißt ein Eigenvektor von A zum Eigenwert λ.
Man beachte, dass Null ein Eigenwert sein kann, ein Eigenvektor jedoch stets vom
Nullvektor verschieden ist.
Nicht jede Matrix ist diagonalisierbar. So ist beispielsweise die folgende, JordanKästchen genannte Matrix, nicht diagonalisierbar:


λ 0 ··· ··· 0

.. 
1 . . . . . .
.



.
 0 . . . . . . . . . .. 



 .. . .
..
..
.
. 0
.
.
0 ··· 0
1 λ
Wir leiten ein Kriterium zur Diagonalisierbarkeit her:
Satz 10.5. Eine quadratische Matrix A ∈ Mn,n (K) ist genau dann diagonalisierbar,
wenn es eine Basis des Kn aus Eigenvektoren von A gibt.
Beweis. Zu jeder Diagonalmatrix gibt es eine Basis des Kn bestehend aus Eigenvektoren, denn die Diagonalmatrix


λ1 0 · · · 0

. 
 0 . . . . . . .. 
 ∈ Mn,n (K)
D := 
 .. . .

..
.
.
. 0
0 · · · 0 λn
hat die Eigenwerte λ1 , . . . , λn mit den dazugehörigen Eigenvektoren e1 , . . . , en ∈ Kn ,
also den kanonischen Einheitsvektoren.
Sei A ∈ Mn,n (K) regulär. Beim Übergang von A zu einer ähnlichen Matrix
T −1 AT übertragen sich die Eigenwerte und Eigenvektoren von A: Ist bi ∈ Kn Eigenvektor zum Eigenwert λi ∈ K von A, also Abi = λi bi , dann ist T −1 bi ein Eigenvektor
1. Eigenwerte und Eigenvektoren
107
von T −1 AT zum Eigenwert λi :
T −1 AT (T −1 bi ) = T −1 Abi = T −1 λi bi = λi (T −1 bi ).
Damit bildet b1 , . . . , bn ∈ Kn eine Basis des Kn bestehend aus Eigenvektoren von
A genau dann, wenn T −1 b1 , . . . , T −1 bn ∈ Kn eine Basis des Kn aus Eigenvektoren
der ähnlichen Matrix T −1 AT ist. Weil die Diagonalisierbarkeit von A äquivalent zur
Ähnlichkeit zu einer Diagonalmatrix ist, folgt die Behauptung.
Aus dem nächsten Satz folgt, dass eine n × n Matrix höchstens n paarweise verschiedene Eigenwerte hat:
Satz 10.6. Sei A ∈ Mn,n (K). Dann sind Eigenvektoren b1 , . . . , bm ∈ Kn von A zu
paarweise verschiedenen Eigenwerten λ1 , . . . , λm ∈ K linear unabhängig über K.
Beweis. Wir führen den Beweis durch vollständige Induktion nach m:
• Zur Induktionsverankerung sei m = 1 und b1 Eigenvektor von A. Wegen
b1 6= 0 ist b1 linear unabhängig.
• Der Induktionsschritt erfolgt von m − 1 nach m. Seien b1 , . . . , bm ∈ Kn
Eigenvektoren zu den paarweise verschiedenen Eigenwerten λ1 , . . . , λm ∈ K
von A. Es ist zu zeigen, dass b1 , . . . , bm linear unabhängig sind:
m
X
ti bi = 0
=⇒
(t1 , . . . , tm ) = 0.
i=1
Sei
Pm
i=1 ti bi
= 0. Dann ist
A
m
X
ti bi =
i=1
O.B.d.A. sei λm 6= 0. Aus
m
X
i=1
m
X
ti Abi =
m
X
ti λi bi = 0.
i=1
i=1
Pm
Pm
i=1 ti bi = λm
i=1 ti bi erhalten
m
X
ti λ i bi =
wir:
λ m ti bi ,
i=1
so dass:
m
X
i=1
(ti λi − ti λm )bi =
m−1
X
i=1
(t λ − t λ ) b = 0.
| i i {z i m} i
∈K
Da nach Induktionsvoraussetzung b1 , . . . , bm−1 linear unabhängig sind, gilt
ti λi = ti λm für i = 1, . . . , m − 1.
Nach Voraussetzung sind die Eigenwerte λ1 , . . . , λm paarweise verschieden
und es folgt t1 = . . . = tm−1 = 0 und damit tm = 0.
Dies war zu zeigen.
Aus Satz 10.5 folgt:
Korollar 10.7 (Diagonalisierbarkeitskriterium). Jede n × n Matrix mit n paarweise
verschiedenen Eigenwerten ist diagonalisierbar.
108
10. Normalformen und Eigenwerte
Die Matrix 01 10 hat die Eigenwerte 1 und −1 mit den Eigenvektoren 11 und
+1
1 0
01
−1 . Somit gilt 1 0 ∼ 0 −1 . Die Umkehrung von Korollar 10.7 gilt nicht; eine
diagonalisierbare Matrix kann weniger als n paarweise verschiedene Eigenwerte haben:
Die Matrix


1

 

 1 −1
2
2
3 1 1
1
1 1
2 0 0 2
1
1
3

−
A = 2 4 2 = −1 0 2 0 2 0 
4
4  ∈ M3,3 (R)
4
1
1
1
1 1 3
0 −1 1
0 0 6
4
4
4
ist diagonalisierbar, hat jedoch nur zwei Eigenwerte:
• Eigenwert 2 mit Eigenvektoren (1, −1, 0)T und (1, 0, −1)T .
• Eigenwert 6 mit Eigenvektor (1, 2, 1)T .
Lemma 10.8. Sei A ∈ Mn,n (K). Paarweise verschiedene λ1 , . . . , λn ∈ K sind genau
dann Eigenwerte zu A, falls A ähnlich zu einer Diagonalmatrix D ∈ Mn,n (K) mit
Diagonalelementen λ1 , . . . , λn ist:


λ1 0 · · · 0

.
 0 . . . . . . .. 

.
A∼. .

.
.
.
.
.
.
. 0
0 · · · 0 λn
Beweis. Sei D ∈ Mn,n (K) die in Lemma angegebene Diagonalmatrix mit λ1 , . . . , λn
als Diagonalelementen. Hat A die paarweise verschiedenen Eigenwerte λ1 , . . . , λn , so
ist A mit Korollar 10.7 diagonalisierbar. Nach dem Beweis von Satz 10.5 übertragen
sich die Eigenwerte und die Diagonalmatrix hat obige Gestalt. Ist umgekehrt A ähnlich zu D, übertragen sich die Eigenwerte von D auf A. Die Eigenwerte von D sind
gerade λ1 , . . . , λn .
Eine Matrix A ∈ Mn,n (K) kann höchstens n Eigenwerte, aber wesentlich mehr Eigenvektoren haben. Für einen Eigenvektor v ∈ Kn zum Eigenwert λ ∈ K sind auch
alle skalaren Vielfachen µv von v Eigenvektoren von A:
A(µv) = µAv = µλv = λ(µv)
Die Summe zweier Eigenvektoren v1 , v2 ∈ Kn zum gleichen Eigenwert λ von A ist
ebenfalls ein Eigenvektor:
A(v1 + v2 ) = Av1 + Av2 = λv1 + λv2 = λ(v1 + v2 )
Die Menge aller Eigenvektoren zu einem Eigenwert einer Matrix und der Nullvektor
bilden nach Lemma 3.5 einen Untervektorraum von Kn , den sogenannten Eigenraum
von A zum Eigenwert λ:
Def inition 10.9 (Eigenraum). Sei A ∈ Mn,n (K) und λ ∈ K Eigenwert von A. Dann
nennen wir
Eig(A, λ) := {v ∈ Kn | Av = λv }
den zugehörigen Eigenraum.
1. Eigenwerte und Eigenvektoren
109
Der Eigenraum von A und λ besteht also aus allen Eigenvektoren von A zu λ
sowie dem Nullvektor (der per Definition kein Eigenvektor ist).
Lemma 10.10. Sei A ∈ Mn,n (K) und λ1 , . . . , λm paarweise verschiedene Eigenwerte
von A. Dann gilt
a)
m
X
Eig(A, λi ) ∼
=
i=1
b) dim
m
M
Eig(A, λi ).
i=1
m
X
Eig(A, λi ) =
i=1
m
X
dim Eig(A, λi ).
i=1
Beweis. Sei A ∈ Mn,n (K) und λ1 , . . . , λn paarweise verschiedene Eigenwerte von A.
Um zu zeigen, dass die Summe der Eigenräume isomorph zur inneren
P direkten Summe
der Eigenräume ist, genügt der Nachweis, dass jeder Vektor u ∈ m
i=1 Eig(A, λi ) eine
eindeutige Darstellung
u = u1 + . . . + um
mit ui ∈ Eig(A, λi )
hat. Zur Eindeutigkeit der Darstellung äquivalent ist die Aussage
Eig(A, λi ) ∩
m
X
Eig(A, λj ) = {0} für i = 1, . . . , m.
j=1
j6=i
P
Sei ui ∈ Eig(A, λi ) mit ui =
j6=i uj und uj ∈ Eig(A, λj ). Nach Satz 10.6 sind
u1 , . . . , um linear unabhängig. Andererseits gilt
ui =
m
X
uj
j=1
j6=i
⇐⇒
ui −
m
X
uj = 0.
j=1
j6=i
Also ist uj = 0 für j = 1, . . . , m, j 6= i und die Behauptung folgt. Die zweite Aussage
fogt in Verbindung mit der ersten Behauptung und Übungsaufgabe 10.4.
Wir erhalten als Kriterium für Diagonalisierbarkeit:
Satz 10.11. Eine Matrix A ∈ Mn,n (K) mit paarweise verschiedenen Eigenwerten
λ1 , . . . , λm ist genau dann diagonalisierbar, wenn
m
X
dim Eig(A, λi ) = n.
i=1
Beweis. Wir zeigen beide Richtungen:
P
⇒“ A ist diagonalisierbar ⇒ m
i=1 dim Eig(A, λi ) = n.
”
Da A diagonalisierbar ist, gibt es eine reguläre Matrix T ∈ Mn,n (K) mit


λ1 0 · · · 0

. 
..
..

.
. .. 
−1
−1  0
 T.
A = T DT = T  . .

.
.
.
.
.
.
. 0
0 · · · 0 λn
110
10. Normalformen und Eigenwerte
Dabei können einzelne λi mehrfach auftreten, denn A hat nach Voraussetzung m ≤ n paarweise verschiedene Eigenwerte. Die kanonischen Einheitsvektoren e1 , . . . , en ∈ Kn sind Eigenvektoren zu D und damit bilden
T −1 e1 , . . . , T −1 en eine Basis des Kn aus linear unabhängigen Eigenvektoren
von A.
Pm
⇐“
i=1 dim Eig(A, λi ) = n ⇒ A ist diagonalisierbar.
”
Nach Voraussetzung gibt es eine Basis b1 , . . . , bn ∈ Kn des Kn aus Eigenvektoren von A. Sei
 T
c1
 .. 
−1
B = (b1 · · · bn ) ∈ Mn,n (K) und B =  .  ∈ Mn,n (K)
cTn
mit c1 , . . . , cn ∈ Mn,1 (K). Dann gilt
In = B −1 B = (cTi bj )1≤i,j≤n = (δij )1≤i,j≤n .
Aus
B −1 AB = B −1 Ab1 · · · Abn = B −1 λ1 b1 · · · λm bn
folgt:

B
−1
AB =
(cTi λj bj )1≤i,j≤n
λ1

0
=
 ..
.
0
0
..
.
..
.
···
···
..
.
..
.
0

0
.. 
. 
.

0 
λm
Dabei können einzelne λi mehrfach auftreten.
Dies war zu zeigen.
2. Charakteristisches Polynom
Das charakteristische Polynom einer Matrix erlaubt es, die Eigenwerte einer linearen
Abbildung zu bestimmen.
Def inition 10.12 (Charakteristisches Polynom). Zu einer quadratischen Matrix A ∈
Mn,n (K) heißt


a1,1 − X a1,2
···
a1,n


..
..
..

 a2,1
.
.
.
 ∈ K[X]
χA (X) := det(A − XIn ) = det 


..
..
..

.
.
.
an−1,n 
an,1
· · · an,n−1 an,n − X
das charakteristische Polynom von A.
Berechnen wir die Determinante det(A − XIn ) nach der Leibniz-Formel, Satz 9.25
auf Seite 97, erhält man das charakteristisches Polynom in Form einer Summe von n!
2. Charakteristisches Polynom
111
Polynomen:
n
Y
X
det(A − XIn ) =
(aii − X) +
qσ
i=1
mit qσ ∈ K[X]n−1 .
σ∈Sn \Id
Der Grad des charakteristischen Polynoms zu einer n × n-Matrix ist daher n.
Das charakteristische Polynom einer linearen Abbildung ist das charakteristische
Polynom einer Darstellungsmatrix dieser Abbildung. Diese Festlegung ist wohldefiniert, denn zwei Darstellungsmatrizen einer linearen Abbildung haben als ähnliche
Matrizen das gleiche charakteristische Polynom:
Lemma 10.13. Seien A, B ∈ Mn,n (K) mit A ∼ B. Dann gilt χA (X) = χB (X).
Beweis. Seien A, B, T ∈ Mn,n (K) mit T regulär und B = T −1 AT . Es gilt
χB (X) = det(T −1 AT − XIn )
= det(T −1 AT − XT −1 T )
= det(T −1 (A − XIn )T )
= det T −1 det(A − XIn ) det T.
Mit det T −1 =
1
det T
folgt die Behauptung.
Def inition 10.14 (Charakteristisches Polynom einer linearen Abbildung). Das charakteristische Polynom einer linearen Abbildung ist das charakteristische Polynom
einer Darstellungsmatrix der Abbildung.
Man kann die Eigenwerte einer Matrix A über die Nullstellen ihres charakteristisches
Polynom χA ermitteln:
Lemma 10.15. Sei A ∈ Mn,n (K). Ein Skalar λ ∈ K ist genau dann Eigenwert von
A, wenn χA (λ) = 0.
Beweis. Sei A ∈ Mn,n (K) und λ ∈ K. Da für v ∈ Kn und λ ∈ K gilt
Av = λv
⇐⇒
(A − λIn )v = 0,
ist λ genau dan ein Eigenwert von A, falls Lös(A − λIn , 0) 6= {0}. Nach Satz 5.7 auf
Seite 62 ist:
Lös(A − λIn , 0) 6= {0}
⇐⇒
rang(A − λIn ) < n.
Weil eine Matrix dann und nur dann sigulär ist, wenn ihre Determinante Null ist,
folgt:
λ ist Eigenwert von A
⇐⇒
det(A − λIn ) = 0.
Aus χA (λ) = det(A − λIn ) erhalten wir die Behauptung.
Beispiel 10.16. In der reellen Ebene R2 beschreiben wir eine Drehung um den Nullpunkt mit dem Winkel ϕ durch die lineare Abbildung mit der Matrix
cos ϕ − sin ϕ
Dϕ :=
∈ M2,2 (R)
sin ϕ cos ϕ
112
10. Normalformen und Eigenwerte
Für das charakteristische Polynom gilt
χDϕ (X) = det
cos ϕ − X
− sin ϕ
sin ϕ
cos ϕ − X
= (cos ϕ − X)(cos ϕ − X) − (− sin ϕ sin ϕ)
= cos2 ϕ − (2 cos ϕ)X + X 2 + sin2 ϕ.
Aus der Euler’schen Formel cos2 ϕ + sin2 ϕ = 1 folgt:
χDϕ (X) = X 2 − (2 cos ϕ)X + 1
(18)
Mit der pq-Formel sind die beiden Nullstellen
x1,2 =
2 cos ϕ ±
p
4 cos2 ϕ − 4
2
genau dann reell, wenn 4 cos2 ϕ − 4 ≥ 0, also cos2 ϕ = 1. Alternative Überlegung:
Nach dem Fundamentalsatz der Algebra (Fakt 4.23 auf Seite 52) zerfällt χDϕ über C
in Linearfaktoren, d.h. es gibt c, λ, λ0 ∈ C mit
χDϕ (X) = c(X − λ)(X − λ0 )
= c(X 2 − X(λ + λ0 ) + λλ0 ).
Nach Lemma 4.25 auf Seite 53 ist λ0 = λ und mit (18) folgt c = 1, λ + λ = 2 cos ϕ
und λλ = 1. Für λ = a + ib ergibt sich a = cos ϕ und cos2 ϕ + b2 = 1. Damit ist λ
genau dann reell, wenn cos2 ϕ = 1, also für ϕ = 0 und ϕ = π.
Eine Drehung in R2 hat nur dann reelle Eigenwerte, wenn ϕ = 0 (also Dϕ =
Id) oder ϕ = π (also bei einer Spiegelung an der x2 -Achse). Die entsprechenden
Eigenwerte sind 1 und −1. Wie sehen die Eigenräume aus?
Man erhält die Menge der Eigenwerte, indem man die Nullstellen des charakteristischen Polynoms ermittelt. Der naheliegende Gedanke, dass die Vielfachheiten
der Eigenwerte den Vielfachheiten der Nullstellen des charakteristischen Polynoms
entsprechen, trifft im allgemeinen nicht zu. Entsprechend zur Notation in Kapitel 4,
Definition 4.20 auf Seite 51, bezeichnen wir die Vielfachheit einer Nullstelle λ von
χA (X) mit ν(A, λ). Die Vielfachheit des Eigenwerts λi von A ist genau dim Eig(A, λi ):
Lemma 10.17. Sei A ∈ Mn,n (K) und λ ∈ K. Dann gilt
dim Eig(A, λ) ≤ ν(A, λ).
Beweis. Sei k := dim Eig(A, λ), b1 , . . . , bk linear unabhängige Eigenvektoren zu λ
und b1 , . . . , bk , . . . , bn sei Basis des Kn . Wir setzen B = (b1 · · · bn ) ∈ Mn,n (K). Dann
2. Charakteristisches Polynom
ist B −1 AB von der Form

λ 0
.

0 . .
.
 . ...
.
.
−1
B AB = 
 ..
.
 ..

.
 ..
0 ···
113
···
..
.
..
.
..
.
···
···
0
∗
..
.
..
.
λ
∗
···
∗
0
..
.
d1,1
..
.
···
d1,n−k
..
.
0
..
.
∗
..
.
..
.
0 dn−k,1 · · ·
dn−k,n−k







 ∈ Mn,n (K).






Mit Lemma 10.13 und Satz 9.36 über die Determinante von Kastenmatrizen gilt
χA (X) = χB −1 AB (X) = det(B −1 AB − XIn ) = (λ − x)k χD (X).
Somit gilt ν(A, λ) ≥ k.
Beispiel 10.18. Wir betrachten ein Jordan-Kästchen:


λ 0 ··· ··· 0

.. 
1 . . . . . .
.




.
J =  0 . . . . . . . . . ..  ∈ Mn,n (K).


 .. . .

..
..
.
. 0
.
.
0 ··· 0
1 λ
Es gilt

0 ···

1 . . .


dim Eig(A, λ) = n − rang 0 . . .

 .. . .
.
.
0 ···
···
..
.
..
.
0
···
..
.
1

0
.. 
.

..  = n − (n − 1) = 1
.

.. 
.
0
sowie χJ (x) = (λ − x)n . Wir erhalten ν(J, λ) = n > dim Eig(J, λ) = 1.
Wir erhalten folgendes Diagonalisierbarkeitskriterium:
Satz 10.19. Eine quadratische Matrix A ∈ Mn,n (K) ist genau dann diagonalisierbar,
wenn
a) Das
P charakteristische Polynom χA (X) vollständig in Linearfaktoren zerfällt:
λ∈K ν(A, λ) = n
b) Für alle Eigenwerte λ ∈ K gilt: ν(A, λ) = dim Eig(A, λ)
Beweis. Beide Bedingungen zusammen sind gleichwertig zu
X
dim Eig(A, λ) = n
λ∈K
und nach Satz 10.11 gilt dies genau für diagonalisierbare Matrizen.
114
10. Normalformen und Eigenwerte
Bei diagonalisierbaren Matrizen entspricht die Vielfachheit der Nullstellen des charakteristischen Polynoms der Vielfachheit der Eigenwerte.
Bemerkung 10.20. Wir wissen, dass jedes Polynom p ∈ C[X] vom Grad n über C
in Linearfaktoren zerfällt. Die Nullstellen müssen nicht paarweise verschieden sein,
aber fast alle Polynome p ∈ C[X] vom Grad n haben n verschiedene Nullstellen in C.
Die Ausnahmemenge in C[X]n ∼
= Cn+1 hat das Lebesguemaß 0. Damit sind fast alle
Matrizen A ∈ Mn,n (C) über C diagonalisierbar.
3. Normalformen
Wie wir gesehen haben, sind nicht alle Matrizen diagonalisierbar. Jedoch kann jede
Matrix auf einfache“ Formen, die kanonischen oder Normalformen, gebracht werden.
”
P
j
m ∈ K[X] ein norDef inition 10.21 (Begleitmatrix). Sei p(X) = m−1
j=0 aj X + X
miertes Polynom vom Grad m. Dann heißt


0 ··· ··· 0
−a0


..
1 . . .
.
−a1 



..  ∈ M
L := 0 . . . . . . ...
m,m (K)
. 


 .. . .
.. 
..
.
.
. 0
. 
0 · · · 0 1 −am−1
Begleitmatrix zu p. Im Fall m = 1 ist L = (−a0 ) ∈ M1,1 (K).
Für jede lineare Abbildung mit vollem Rang gibt es eine Darstellungsmatrix aus
Begleitmatrizen auf der Diagonalen [G86, Kap. 6, Satz 7].
Satz 10.22. Jede reguläre Matrix A ∈ Mm,m (K) ist ähnlich zu einer Kastenmatrix
der Form


L1
0
···
0

.. 
..
 0
.
L
. 


2
.
 .
..
..
 .

.
.
.
0


0
···
0
Lt
Dabei sind L1 , . . . , Lt Begleitmatrizen zu Potenzen von irreduziblen (über K unzerlegbaren) Polynomen pi ∈ K[X]. Das charakteristische Polynom von A ist das Produkt
dieser Polynome:
χA (X) =
t
Y
pi .
i=1
Man spricht von einer blockdiagonalen Matrix .
Lemma 10.23. Die Begleitmatrix L ∈ Mm,m (K) hat das charakteristische Polynom
χL (X) = det(L − XIm ) = (−1)m p(X).
3. Normalformen
115
Beweis. Sei L ∈ Mm,m (K) die Begleitmatrix zum normierten Polynom
p(X) =
m−1
X
ai X i + X m .
i=0
Für das charakteristische Polynom





χL (X) = det(L − XIm ) = det 



−X
0
..
.
0
..
.
..
.
..
.
0
···
1
···
..
.
..
.
..
.
0
−a0
0
..
.



−a1


..

0
.


..

−X
.
1
(−am−1 − X)
erhalten wir durch Entwicklung nach der letzten Spalte gemäß dem Entwicklungssatz
9.28 von Laplace, wobei A0im ∈ Mm−1,m−1 (K) die entsprechende Streichungsmatrix
bezeichnet:
χL (X) =
m−1
X
(−1)i+m (−ai−1 ) det A0im + (−1)m+m (−am−1 − X) · det A0mm
i=1
m
= (−1)
X
m
i−1
(−1)
ai−1 det A0im
− X · det A0mm .
i=1
Mit det A0im = (−X)i−1 (was wir anschließend beweisen werden) gilt weiter:
X
m
m
i−1
i−1
χL (X) = (−1)
(−1) ai−1 (−X)
− X · (−X)m−1
= (−1)m
i=1
m−1
X
ai X i + (−1)m X m
i=0
m
= (−1) p(X).
Der Nachweis von
 −X
det A0im
0
··· ···
. .
 1 .. ..

 0 ... ...

 .. . . . .
 .
. .

··· 0
= det  00 ···
···

 ..
 .
 .
 ..

..
.
0
···
···
···
··· ···
0
..
.
..
.
..
.




.


.. ..

. .
!
1 −X 0 ··· ··· ··· 0  =
(−X)i−1
··· 0 1 −X 0 ··· 0 

. . . . . . . . .. 
. . . . . 
.. .. .. 0 

. . .

. . . . −X
. .
..
··· ··· ···
···
···
···
···
0
1
folgt unmittelbar durch Laplace-Entwicklung nach der letzten Zeile:
det A0im = (−1)(m−1)+(m−1) · 1 · (−X)i−1 · 1m−i = (−X)i−1 .
116
10. Normalformen und Eigenwerte
Pn
i
Ist p(X) =
i=0 pi X ∈ K[X] ein Polynom, kann man für die Unbestimmte
X nicht nur Elemente aus K, sondern auch Endomorphismen f : V → V eines KVektorraums V einsetzen. Wir erhalten einen Endomorphismus p(f ) : V → V mit
p(f ) = p0 · id + p1 f + . . . + pn−1 f n−1 + pn f n
wobei
fk = f ◦ . . . ◦ f
| {z }
k-mal
die k-fache Hintereinanderausführung bezeichnet. Auf gleiche Weise kann man ebenfalls eine Matrix A ∈ Mn,n (K) einsetzen:
p(A) = p0 In + p1 A + . . . + pn−1 An−1 + pn An ∈ Mn,n (K)
Der Satz von Cayley-Hamilton besagt, setzt man eine Matrix in ihr eigenes charakteristisches Polynom ein, ergibt dies die Nullmatrix:
Satz 10.24 (Cayley-Hamilton). Für A ∈ Mn,n (K) ist χA (A) = 0.
Einen Beweis findet man in [Beu98, Kapitel 8.3]. Wir wenden den Satz von
Cayley-Hamilton auf die beschreibende Matrix einer linearen Abbildung an und erhalten:
Korollar 10.25. Sei V ein K-Vektorraum und f : V → V Endomorphismus. Dann
gilt χf (f ) = 0, d.h. χf (f ) ist die Nullabbildung.
Für allgemeine Homomorphismen von Vektorräumen f : U → V ist weder die
Determinante noch das charakteristische Polynom erklärt. Die Determinante der Darstellungsmatrix ist zwar im Fall dim U = dim V erklärt, aber von der Wahl der Basen
in U und V abhängig. Für beliebige Homomorphismen von Vektorräumen f : U → V
kann man die Basen in U und V stets so wählen, dass f durch eine Diagonalmatrix
dargestellt wird.
Bemerkung 10.26. Die sogenannte Jordan’sche Normalform bezieht sich nur auf
n × n Matrizen und Endomorphismen, deren charakteristisches Polynom χA (X) in
Linearfaktoren zerfällt, d.h. χA (X) hat mit Vielfachheiten gezählt n Nullstellen.
Dies ist ein Spezialfall, der P
über dem Körper R bei großem n relativ selten ist. Ist
A ∈ Mn,n (K) regulär und λ∈K ν(A, λ) = n, dann ist A ähnlich zu einer verallgemeinerten Diagonalmatrix, deren Kästen Jordan-Kästchen sind. Dabei ist λ ein
Eigenwert von A.
Kapitel 11
Euklidische
Vektorräume
In den vorherigen Kapiteln betrachteten wir allgemeine Körper K. Die analytische
”
Geometrie“ dagegen basiert auf dem Körper der reellen Zahlen. Man erweitert die
Vektorraumstruktur um ein sogenanntes Skalarprodukt, um sowohl Länge als auch
Winkel zu definieren.
1. Vektornorm
Bei einem normierten Vektorraum ist außer dem Raum selbst eine Funktion gegeben,
die jedem Vektor eine Länge (Norm) zuordnet:
Def inition 11.1 (Vektornorm). Sei V ein R-Vektorraum. Eine Vektornorm auf V
ist eine Abbildung k·k : V → R mit folgenden Eigenschaften:
(N1) Positive Definitheit: kvk > 0 für v 6= 0.
(N2) Positive Homogenität: kλvk = |λ| · kvk für λ ∈ R, v ∈ V .
(N3) Dreiecksungleichung: kv + wk ≤ kvk + kwk für v, w ∈ Rn .
Die reelle Zahl kvk heißt Norm oder Länge des Vektors v.
Aus der positiven Homogenität folgt mit λ = 0, dass k0k = 0 ist, aufgrund der
positiven Definitheit gilt daher:
kvk = 0
⇐⇒
v = 0.
Für V = Rn verwendet man häufig eine der folgenden Normen, dabei sei x =
(x1 , . . . , xn )T ∈ Rn :
P
• Betragsnorm: kxk1 := ni=1 |xi |.
qP
n
2
• Euklidische Norm:: kxk2 :=
i=1 xi .
• Maximumsnorm: kxk∞ := max |xi |.
i=1,...,n
117
118
11. Euklidische Vektorräume
Der Nachweis der Norm-Eigenschaften ist einfach. Eine Verallgemeinerung dieser Beispiele ist die sogenannte p-Norm zu einer festen, reellen Zahl p ≥ 1:
X
1
n
p
p
|xi |
kxkp :=
.
i=1
Für p = 1 bzw. p = 2 erhält man die Betrags- und die euklidische Norm, die Maximumsnorm ergibt sich als Grenzfall der p-Norm für p → ∞. Die positive Definitheit
und Homogenität erfüllt die p-Norm offenbar, die Dreiecksungleichung folgt aus der
Minkowski’schen Ungleichung, die man in der Analysis zeigt.
Fakt 11.2 (Hölder’sche Ungleichung). Zu p, q ≥ 1 mit p1 + 1q = 1 gilt für alle x, y ∈ Rn :
T x y ≤ kxk · kyk .
p
q
Ein Spezialfall der Hölder’schen Ungleichung ist die Cauchy-Schwarz-Ungleichung.
Mit p = q = 2 folgt für x, y ∈ Rn :
T x y ≤ kxk · kyk
2
2
Die Gleichheit gilt genau dann, wenn beide Vektoren linear abhängig sind.
Fakt 11.3. Je zwei Normen k·k und k·k0 auf dem Rn sind äquivalent, d.h. es gibt
Konstanten c1 , c2 ∈ R mit
c1 · kxk ≤ kxk0 ≤ c2 · kxk
für alle x ∈ Rn .
Zum Beispiel gilt für x ∈ Rn :
√
kxk2 ≤ kxk1 ≤ n · kxk2
√
kxk∞ ≤ kxk2 ≤ n · kxk∞
kxk∞ ≤ kxk1 ≤ n · kxk∞ .
Der Abstand (Distanz ) zwischen zwei Vektoren x, y ∈ Rn läßt sich definieren als
d(x, y) := kx − yk. Wir haben im Kapitel 7 über lineare Codes gesehen, dass man
den Abstand zweier Vektoren auch unabhängig von einer Norm formulieren kann.
Def inition 11.4 (Metrik). Sei V ein Vektorraum über einem Körper K. Eine Metrik
auf V ist eine Abbildung d : V × V → R mit folgenden Eigenschaften:
(M1) Symmetrie: d(x, y) = d(y, x) für x, y ∈ V .
(M2) Dreiecksungleichung: d(x, z) ≤ d(x, y) + d(y, z) für x, y, z ∈ V .
(M3) Es gilt x = y ⇐⇒ d(x, y) = 0 für x, y ∈ V .
Die reelle Zahl d(x, y) heißt Abstand oder Distanz von x und y.
Für den Abstand zweier Vektoren x und y gilt stets d(x, y) ≥ 0, denn:
0 = d(x, x) ≤ d(x, y) + d(y, x) = d(x, y) + d(x, y) = 2 · d(x, y).
2. Matrixnorm
119
Zu jeder Norm k·k ist d(x, y) = kx − yk eine Metrik auf dem Raum Rn . Die Umkehrung gilt nicht, denn zur Metrik d mit
(
1 falls x 6= y
d(x, y) :=
0 sonst
auf dem Rn stellt die Abbildung x 7→ d(x, 0) keine Norm dar (wieso?).
2. Matrixnorm
Die Matrixnorm auf Mm,n (R) ist mit der Isomorphie Rm·n ' Mm,n (R) äquivalent
zur Vektornorm auf Rm·n :
Def inition 11.5 (Matrixnorm). Eine Matrixnorm auf Mm,n (R) ist eine Abbildung
k·k : Mm,n (R) → R mit folgenden Eigenschaften:
(N1) Positive Definitheit: kAk > 0 für A 6= 0.
(N2) Positive Homogenität: kλAk = |λ| · kAk für λ ∈ R, A ∈ Mm,n (R).
(N3) Dreiecksungleichung: kA + Bk ≤ kAk + kBk für A, B ∈ Mm,n (R).
Die reelle Zahl kAk heißt Norm der Matrix A.
Auch für Matrixnormen ist genau dann A = 0, wenn kAk = 0 gilt. Man verwendet
häufig eine der folgenden beiden Normen, dabei sei A = (aij )ij ∈ Mm,n (R):
• Die Frobenius-Norm entspricht der euklidischen Norm auf Rm×n :
v
uX
n
um X
t
kAkF :=
a2i,j .
i=1 j=1
• die p-Matrixnorm zu einer festen, reellen Zahl p ≥ 1:
kAxkp
kAkp := sup
.
x6=0 kxkp
Wegen der positiven Homogenität können wir die p-Matrixnorm auch schreiben als:
n
o
kAkp = sup kAxkp kxkp = 1 .
Die p-Matrixnorm interpretiert A als Abbildung Rn → Rm mit x 7→ Ax und
nicht als Vektor in Rm×n ' Mm,n (R). Die Matrixnorm kAkp gibt an, um
welchen Faktor die Länge (in der p-Norm) des Vektors x durch die Abbildung
x 7→ Ax höchstens gestreckt wird:
kAxkp ≤ kAkp · kxkp
(19)
Wir haben die p-Matrixnorm kAkp der Matrix Mm,n (R) definiert als das Supremum
von der p-Vektornorm kAxkp über alle x aus der n-Sphäre (Kugeloberfläche)
n
o
Sn,k·kp := x ∈ Rn kxkp = 1
zur Vektornorm k·kp . Die p-Norm einer Matrix ist eine reelle Zahl, denn die Abbildung
x 7→ kAxkp ist stetig und Sn,k·kp kompakt:
120
11. Euklidische Vektorräume
Lemma 11.6. Zu einer Matrix A ∈ Mm,n (R) nimmt die Abbildung x 7→ kAxkp mit
x ∈ Sn,k·kp ihr Supremum an.
Die p-Matrixnorm hat die wichtige Eigenschaft der Submultiplikativität:
Lemma 11.7 (Submultiplikativität der p-Matrixnorm). Seien A ∈ Mk,m (R) und
B ∈ Mm,n (R). Dann gilt:
kA · Bkp ≤ kAkp · kBkp .
Beweis. Wir wenden Abschätzung (19) an:
kABxkp = kA(Bx)kp ≤ kAkp · kBxkp ≤ kAkp · kBkp · kxkp .
Aus der Ungleichung für beliebiges x 6= 0
kABxkp
kxkp
≤ kAkp · kBkp
folgt, dass das Supremum kA · Bkp = supx6=0
der Normen beider Matrizen beschränkt ist.
n kABxk o
p
kxkp
durch das Produkt kAkp ·kBkp
Im Beweis zu Lemma 11.6 benutzen wir, dass bei der Zusammensetzung linearer
Abbildungen die Darstellungsmatrizen multipliziert werden. Für φB : x 7→ Bx und
φA : x 7→ Ax ist die Zusammensetzung φA ◦ φB mit φA (φB (x)) beschrieben durch die
Matrix AB:
φA ◦ φB = φ(A·B) .
In der Numerik verwendet man die Matrix-Norm, um zu zeigen, dass ein iteratives Verfahren eine approximative Lösung bestimmt. Wir geben im folgenden
einen Algorithmus zur näherungsweisen Berechnung der inversen Matrix zu einer
gegebenen Matrix
an. Zunächst zeigen wir das Analogon zur geometrischen Reihe
P
ν für x ∈ R mit |x| < 1 für Matrizen:
(1 − x)−1 = ∞
x
ν=0
Satz 11.8. Sei A ∈ Mn,n (R) eine quadratische Matrix mit p-Norm kAkp < 1. Dann
gilt
(In − A)−1 =
∞
X
Aν
und
kIn − Akp ≤
ν=0
1
.
1 − kAkp
Beweis. Die Matrix In − A ist regulär, denn anderenfalls gäbe es ein x 6= 0 mit
(In − A)x = 0, also x = Ax. Wegen kxkp = kAxkp ist dann kAkp ≥ 1 im Widerspruch
zur Voraussetzung. Das Inverse (In − A)−1 existiert. Die Identität
(In − A) ·
t
X
Aν = In − At−1
ν=0
impliziert
lim (In − A) ·
t→∞
t
X
ν=0
Aν = In .
(20)
2. Matrixnorm
121
Aufgrund der Submultiplikativität der p-Norm, die wir in Lemma 11.6 gezeigt haben,
gilt:
t+1 A ≤ kAk · kAk · · · kAk = kAkt+1
p
p
p
p
p
|
{z
}
(t + 1)-mal
Mit der Voraussetzung kAkp < 1 folgt limt→∞ At+1 p = 0. Gleichung (20) multipliziert mit (In − A)−1 ergibt:
lim
t→∞
t
X
Aν = (In − A)−1 .
(21)
ν=0
Mit der Dreiecksungleichung für die Matrixnorm erhalten wir:
∞
X
(In − A)−1 ≤
kAν kp ≤
p
ν=0
Die letzte Abschätzung ist die geometrische Reihe
|x| < 1.
1
.
1 − kAkp
P∞
ν
ν=0 x
=
1
1−x
für x ∈ R mit
Es folgt:
Lemma 11.9. Seien A, B ∈ Mn,n (R) quadratische Matrizen mit kIn − ABkp ≤ für ein < 1. Dann gilt:
kIn − 2AB + (AB)2 kp ≤ 2 .
|
{z
}
=AB(AB−2In )
Beweis. Aus dem binomischen Lehrsatz und der Submultiplikativität der p-Matrixnorm folgt:
In − 2AB + (AB)2 = (In − AB)2 ≤ 2 .
p
p
Wähle eine Startmatrix B0 mit kIn − AB0 kp ≤ für ein < 1. Für die Folge
Bi := Bi−1 (−ABi−1 + 2In ) i = 1, 2, 3, . . .
gilt:
i
kIn − ABi kp ≤ 2 .
Nach jeder Iteration wird der Abstand ABi zur Einheitsmatrix In immer kleiner. Die
Differenz In − ABi quadriert sich in jeder Iteration, man spricht von quadratischer
Konvergenz.
Anhand des Wertes wissen wir, nach wievielen Iterationen man eine näherungsweise Lösung mit der gewünschten Approximationsgüte gefunden hat. Die p-Norm
der Startmatrix können wir mit folgendem Satz nach oben mit Hilfe der p- und
1-Vektornorm abschätzen:
122
11. Euklidische Vektorräume
Satz 11.10. Sei A ∈ Mn,n (R) eine quadratische Matrix mit Spalten A1 , . . . , An .
Dann gilt:
kxk1
kAkp ≤ max kAi kp · max
.
n
i=1,...,n
x∈R \{0} kxkp
Beweis. Es ist:
kAkp = max
x6=0
kAxkp
kxkp
= max
k
Pn
i=1 Ai xi kp
kxkp
x6=0
.
Aus der Dreicksungleichung und der positiven Homogenität der p-Matrixnorm folgt:
!
n
n
X
X
kxi k
|xi |
≤ max
max kAi kp ·
kAkp ≤ max
kAi kp ·
i=1,2,...,n
x6=0
x6=0
kxkp
kxkp
i=1
i=1
Pn
Mit kxk1 = i=1 |xi | erhalten wir die Behauptung:
kAkp ≤ max kAi kp · max
i=1,...,n
x6=0
kxk1
.
kxkp
Zum Beispiel ist
kxk1
kxk2
≤
√
n und
kxk1
kxk∞
≤ n für x ∈ Rn \ {0}.
3. Skalarprodukt
Ein euklidischer Vektorraum ist ein reeller Vektorraum in Verbindung mit einem
Skalarprodukt:
Def inition 11.11 (Skalarprodukt). Sei V ein R-Vektorraum. Ein Skalarprodukt auf
V ist eine Abbildung h·, ·i : V × V → R, die folgenden Regeln genügt:
(S1) Positive Definitheit: hv, vi > 0 für alle v 6= 0.
(S2) Bilinearität: Für jedes v ∈ V sind die beiden Abbildungen hv, ·i , h·, vi : V →
R mit w 7→ hv, wi und w →
7 hw, vi linear.1
(S3) Symmetrie: hv, wi = hw, vi für alle v, w ∈ V .
Man sagt kurz, h·, ·i ist eine positiv definite, symmetrische Bilinearform auf V .
Ein wichtiges Beispiel eines Skalarproduktes auf dem Rn , das sogenannte kanonische
Skalarprodukt auf dem Rn , haben wir bereits kennengelernt:
n
X
hx, yi := xy T =
xi yi .
i=1
Man überzeuge sich, dass es die Bedingungen eines Skalarprodukts erfüllt. Neben dem
kanonischen Skalarprodukt gibt es auch Skalarprodukte, die durch einen Basiswechsel
entstehen. Sei etwa B ∈ Mn,n (R) eine Basismatrix bestehend aus den Spaltenvektoren B1 , . . . , Bn . Dann hat das kanonische Skalarprodukt h·, ·i zur Basis B die Form
h·, ·iB mit:
hv, wiB := hBv, Bwi = (Bv)T (Bw) = v T B T Bw.
1Wegen der Symmetrie hätte es genügt, die Linearität in nur einer Komponente zu fordern.
3. Skalarprodukt
123
die Matrix Q := B T B ist symmetrisch, d.h. Q = QT .
p Für einen euklidischen Vektorraum verwendenn wir als Norm die Abbildung kvk :=
hv, vi. Für das kanonische Skalarprodukt im R liefert dies die euklidische Länge
v
u n
uX
kxk = t
x2i .
i=1
p
Wir zeigen, daß kvk := phv, vi eine Norm ist. Aus den Eigenschaften des Skalarprodukts folgt unmittelbar hv, vi > 0 für v 6= 0 und
p
p
p
p
hλv, λvi = λ · hv, λvi = λ2 · hv, vi = |λ| · hv, vi.
Die Dreiecksungleichung kv + wk ≤ kvk + kwk der Norm weist man mit Hilfe der
Cauchy-Schwarz-Ungleichung nach:
≤kvk+kwk
z }| {
kv + wk = kvk + 2 · hv, wi + kwk2 ≤ (kvk + kwk)2
2
2
Zu zeigen bleibt die Abschätzung hv, wi ≤ kvk · kwk:
Satz 11.12 (Cauchy-Schwarz-Ungleichung). In jedem euklidischen Vektorraum V gilt
für v, w ∈ V :
|hv, wi| ≤ kvk · kwk .
Die Gleichheit gilt genau dann, wenn beide Vektoren linear abhängig sind.
Beweis. Für w = 0 gilt die Behauptung, so dass im weiteren w 6= 0 sei. Setze
λ := hv,wi
. Es gilt:
kwk2
0 ≤ hv − λw, v − λwi
(22)
= hv, v − λwi − λ · hw, v − λwi
= hv, vi − 2λ · hv, wi + λ2 · hw, wi
Mit hu, ui = kuk2 folgt:
0 ≤ kvk2 − 2 ·
hv, wi2 hv, wi2
hv, wi2
2
+
=
kvk
−
.
kwk2
kwk2
kwk2
Wir erhalten die Behauptung aus hv, wi2 ≤ kvk2 · kwk2 . Die Gleichheit in (22) gilt
genau dann, wenn w = 0 oder v = µw für ein µ ∈ R.
Seien x, y ∈ Rn \ {0} und h·, ·i das kanononische Skalarprodukt. Gemäß CauchySchwarz-Ungleichung gilt
−1 ≤
Somit gilt cos ϕ =
hx,yi
kxk·kyk
hx, yi
≤ +1.
kxk · kyk
für genau ein Winkel ϕ ∈ [0, π]:
124
11. Euklidische Vektorräume
Abbildung 1. Winkel
y
y2
ϕK
-
x
cos ϕ
y1
Abbildung 2. Cosinus
+1
π/2
0
π
3π/2
2π
-
ϕ
−1
π/2
π
}
rϕ
cos ϕ
e1
-
0/2π
2π/2
Satz 11.13. Zu x, y ∈ Rn \ {0} ist der Winkel zwischen x, y
ϕ := ∠(x, y) := arccos
mit cos ϕ =
hx, yi
kxk · kyk
hx,yi
kxk·kyk .
Beweis. Sei o.B.d.A. x = (x1 , x2 )T ∈ R2 mit x2 = 0 und x1 ≥ 0, sowie y =
(y1 , y2 )T ∈ R2 . Für den Winkel ϕ = ∠(x, y) gilt:
cos ϕ =
y1
kxk · y1
hx, yi
Ankathete
=
=p 2
=
.
2
Hypothenuse
kxk · kyk
kxk · kyk
y 1 + y2
Wir erhalten als Verallgemeinerung des Satzes von Pythagoras:
3. Skalarprodukt
125
Satz 11.14 (Cosinussatz). Für x, y ∈ Rn \ {0} gilt mit ϕ := ∠(x, y):
kx − yk2 = kxk2 + kyk2 − 2 hx, yi
= kxk2 + kyk2 − 2 kxk · kyk · cos ϕ.
Für cos ϕ = 0 ist ∠(x, y) = 21 π, also
cos ϕ = 0
⇐⇒
kxk2 + kyk2 = kx − yk2 .
Korollar 11.15 (Parallelogramm-Gleichung). Für x, y ∈ Rn \ {0} gilt:
kx + yk2 + kx − yk2 = 2 kxk2 + 2 kyk2 .
Abbildung 3. Parallelogramm-Gleichung
x
:
kx − yk
0
kx + yk
- x+y
j
y
Ist der Winkel ∠(v, w) = 90◦ , sagt man, der Vektor w steht senkrecht auf v:
Def inition 11.16 (Orthogonalität). Zwei Vektoren v, w ∈ V eines euklidischen Vektorraums V sind orthogonal oder senkrecht, v ⊥ w, falls hv, wi = 0. Wir schreiben
v ⊥ U für eine Menge U von Vektoren, wenn v orthogonal zu allen Vektoren u ∈ U
ist.
Eine Menge von Vektoren v1 , . . . , vn ∈ V heißt orthogonal, wenn vi ⊥ vj für
i 6= j. Wie für das kanonische Skalarprodukt in Abschnitt 1 definiert man zu einem
Untervektorraum U eines reellen Vektorraum V das orthogonale Komplement U ⊥
gemäß
U ⊥ := {v ∈ V | hu, vi = 0 für alle u ∈ U } = {v ∈ V | v ⊥ U } .
Analog zu Satz 8.1 gilt V = U ⊕ U ⊥ .
Def inition 11.17 (Orthogonal-, Orthonormalbasis). Die Vektoren b1 , . . . , bn eines
Vektorraum V nennt man orthonormal oder Orthonormalsystem, wenn kbi k = 1 für
i = 1, . . . , n und bi ⊥ bj für i 6= j.2 Bilden die Vektoren eine Basis von V , spricht
man von einer Orthogonal- bzw. Orthonormalbasis.
aus
Vektoren
b1 , . . . , bn eines Orthogonalsystems sind stets linear unabhängig, denn
Pn
λ
b
j=1 j j = 0 folgt für i = 1, . . . , n:
* n
+
n
X
X
0 = h0, bi i =
λ j bj , b i =
λi · hbj , bi i = λi · hbi , bi i = λi · kbi k ,
j=1
j=1
2Anders ausgedrückt hb , b i = δ für 1 ≤ i, j ≤ n.
i j
i,j
126
11. Euklidische Vektorräume
so dass wegen bi 6= 0 folgt kbi k =
6 0 und λ1 = · · · = λn = 0.
Sei b1 , . . . , bn eine Orthogonalbasis
P eines reellen Vektorraums V . Jeden Vektor
v ∈ V können wir schreiben als v = nj=1 λj bj . Es folgt für i = 1, . . . , n:
* n
+
n
X
X
λ j bj , b i =
λj hbj , bi i = λi · hbi , bi i = λi · kbi k2
hv, bi i =
j=1
i=j
Die i-te Koordinate bezüglich der Orthogonalbasis ist λi =
hv,bi i
:
kbi k2
Satz 11.18. Sei b1 , . . . , bn eine Orthogonalbasis eines reellen Vektorraums V . Für
v ∈ V gilt:
v=
n
X
hv, bi i
i=1
Für eine Orthonormalbasis ist v =
· bi .
kbi k2
Pn
i=1 hv, bi i
· bi .
Sei V ein reeller Vektorraum und U ein Untervektorraum mit einer orthogonalen
Basis b1 , . . . , bm . Diese können wir durch Hinzunahme von Vektoren bm+1 , . . . , bn aus
U ⊥ zu einer Basis von V erweitern. Die orthogonale Projektion πU : V → U ist
gegeben durch:
v 7→
m
X
hv, bj i
j=1
kbj k2
· bj
Das Schmidt’sche Orthogonalisierungsverfahren erzeugt zu einer Basis b1 , . . . , bn eines
euklidischen Vektorraums V eine Orthogonalbasis b∗1 , . . . , b∗n gemäß folgender Rekursion:
b∗1 := b1
b∗i := bi −
i−1
X
hbi , b∗ i
j
∗ k2
kb
j
j=1
· b∗j
für i > 1.
(23)
Die Vektoren b∗1 , . . . , b∗n nennt man die Höhen der Basisvektoren b1 , . . . , bn , die Ko∗
effizienten µi,j := hbkbi∗,bkj2i Gram-Schmidt-Koeffizienten. In Übungsaufgabe 12.2 zeigen
j
wir die Korrektheit des Schmidt’schen Orthogonalisierungsverfahrens:
Satz 11.19. Sei b1 , . . . , bn eine Basis eines euklidischen Vektorraums V . Die Vektoren
b∗1 , . . . , b∗n der Rekursion (23) bilden eine Orthogonalbasis von V .
Aus der Eindeutigkeit der Zerlegung bi = πU (bi ) + πU ⊥ (bi ) folgt, dass für eine
geordnete Basis, d.h. die Reihenfolge der Basisvektoren ist fest vorgegeben, die Höhen
eindeutig bestimmt sind.
Indem wir die Höhen b∗1 , . . . , b∗n der Orthogonalbasis normieren, also b∗i durch kb1∗ k ·
i
b∗i ersetzen, erhält man eine Orthonormalbasis, d.h. jeder euklidische Vektorrraum
besitzt eine Orthonormalbasis.
4. Orthogonale Abbildungen und Matrizen
127
4. Orthogonale Abbildungen und Matrizen
Wir nennen eine Abbildung orthogonal, wenn das gegebene Skalarprodukt zweier
Vektoren x, y mit dem der Bilder übereinstimmt:
Def inition 11.20 (Orthogonale Abbildung). Eine lineare Abbildung f : Rn → Rm
heißt orthogonal (auch isometrisch), wenn für alle x, y ∈ Rn gilt:
hx, yi = hf (x), f (y)i .
Der Begriff orthogonale Abbildung“ läßt sich auf den Fall beliebiger Vektorräume
”
verallgemeinern. Sei V ein reeller, n-dimensionaler Vektorraum mit Basis B und Φ :
V → Rn der Isomorphismus, der einen Vektor auf seinen Koordinatenvektor bezüglich
der Basis abbildet:
Φ(Bt) = (t1 , . . . , tn )T .
Durch hv, wiV := hΦ(v), Φ(w)i ist ein Skalarprodukt auf V definiert. Der Endomorphismus F : V → V heißt orthogonal, wenn hv, wiV = hf (v), f (w)i für alle v, w ∈ V
ist. Dies gilt genau dann, wenn die Abbildung (Φ ◦ f ◦ Φ−1 ) : Rn → Rn orthogonal
ist.
Lemma 11.21. Sei A ∈ Mn,n (R) und φA : Rn → Rn mit x 7→ Ax. Die Abbildung φA
ist genau dann orthogonal (bezüglich kanonischem Skalarprodukt), wenn AT = A−1 .
Beweis. Sei e1 , . . . , en die Standardbasis des Rn . Die Abbildung φA ist genau dann
orthogonal, wenn für 1 ≤ i, j ≤ n gilt:
hei , ej i = hφA (ei ), φA (ej )i .
| {z } |
{z
}
=eT
i ·ej
T
=eT
i A Aej
Dies gilt genau dann, wenn AT A = In , also AT = A−1 .
Eine Basis b1 , . . . , bn heißt orthonormal, falls hbi , bj i = δi,j für 1 ≤ i, j ≤ n.
Satz 11.22. Sei A ∈ Mn,n (R) und φA : Rn → Rn mit x 7→ Ax. Bezüglich des
kanonischen Skalarprodukts sind folgende Aussagen äquivalent:
a) Die Abbildung φA ist orthogonal, d.h. AT A = In .
b) A−1 = AT .
c) Die Zeilenvektoren bilden eine Orthonormalbasis des Rn .
d) Die Spaltenvektoren bilden eine Orthonormalbasis des Rn .
Wir nennen die Matrix A orthogonal, wenn die Spalten- bzw. Zeilenvektoren eine
Orthonormalbasis des Rn bilden:
Def inition 11.23 (Orthogonale Matrix). Eine quadratische Matrix A ∈ Mn,n (R)
heißt orthogonal, wenn AT A = In . Die Menge der orthogonalen n × n-Matrizen bezeichnet man mit On (R) ⊆ Mn,n (R).
Die orthogonalen n × n-Matrizen On (R) bilden bezüglich der Multiplikation eine
Gruppe bzw. eine Untergruppe von GLn (R):
128
11. Euklidische Vektorräume
Satz 11.24. Die Menge der orthogonalen n×n-Matrizen On (R) ist ein multiplikative
Gruppe.
Beweis. Da die Matrix-Multiplikation assoziativ ist, genügt der Nachweis, dass On (R)
abgeschlossen ist gegen Multiplikation und Inversenbildung. Zu A, B ∈ On (R) gilt
AB ∈ On (R), denn
T
T
(AB)T (AB) = B T · A
| {zA} ·B = B B = In .
=In
Zu A ∈ On (R) gibt es ein Inverses A−1 = AT ∈ On (R).
Wir haben bereits einige der Matrixgruppen kennengelernt. Die allgemeine, lineare
Gruppe ist
GLn (K) = {A ∈ Mn,n (K) | det A 6= 0 } .
Für K = R bilden die orthogonalen Matrizen
On (R) = A ∈ GLn (R) AT A = In
eine Untergruppe von GLn (R), die sogenannte orthogonale Gruppe (vergleiche Satz
11.24 auf Seite 128). Die spezielle orthogonale Gruppe SOn (R) ist ihrerseits eine
Untergruppe von On (R):
SOn (R) = {A ∈ On (R) | det A = +1 }
Beispiel 11.25. Beispiele orthogonaler 2 × 2-Matrizen sind Drehungen Dϕ um ϕ ∈
[0, 2π) und Spiegelungen SP:
cos ϕ − sin ϕ
1 0
Dϕ =
SP =
sin ϕ cos ϕ
0 −1
Mit diesen beiden Matrix-Typen können wir die Menge der orthogonalen 2 × 2Matrizen schreiben als O2 (R) = {Dϕ , SP ·Dϕ | ϕ ∈ [0, 2π) }.
Es gilt [Beu98, Kap. 10.4]:
Satz 11.26. Sei A ∈ On (R) eine orthogonale n × n-Matrix. Dann gibt es eine orthogonale Matrix T ∈ On (R), so dass T −1 AT von folgender Form ist:


Ik

−I`
0 




D
ϕ
1
(24)

.


.
.


.
0
Dϕm
Jede orthogonale Abbildung φ : Rn → Rm hat bezüglich einer geeigneten Orthonormalbasis eine darstellende Matrix der Form (24).
4. Orthogonale Abbildungen und Matrizen
129
Sei b1 , . . . , bn Basis eines euklidischen Vektorraums. Mit dem Gram-SchmidtOrthogonalisierungsverfahren
b∗1 := b1
b∗i := bi −
i−1
X
hbi , b∗ i
j
∗
kbj k2
j=1
· b∗j
(25)
für i > 1.
berechnet man eine Orthogonalbasis b∗1 , . . . , b∗n . Zu den Gram-Schmidt-Koeffizienten
∗
µi,j := hbkbi∗,bkj2i mit i > j definiere:
j
(
1 für i = j
µij :=
0 für i < j,
so dass:
b1 · · ·
bn = b∗1 · · ·


1 µ2,1 · · · µn−1,1 µn,1
0 1
µn−1,2 µn,2 


 ..
..  .
.
..
∗
..
bn ·  .
.
. 


0
0
1
µn,n−1 
0 ···
0
0
1
|
{z
}
T
= µi,j
1≤i,j≤n
Wir normieren die Vektoren der Orthogonalbasis:

b∗1
···
b∗n
=
b∗1
kb∗1 k
|
···
{z
b∗n
kb∗n k
∈On (R)


· 

} 
kb∗1 k

0
.. 
. 


..
.
0 
· · · 0 kb∗n k
{z
}
0
..
.
0
..
.
0
|
·
Diagonalmatrix mit pos. Elementen
und erhalten:

b1 · · ·
b∗
bn = kb∗1 k
| 1
···
{z
∈On (R)
b∗n
kb∗n k
kb∗1 k

 0
·
 .
}  ..
0
|
0
..
.
···

0
.. 
. 
 · µi,j T

1≤i,j≤n
..
.
0 
0 kb∗n k
{z
}
·
∈ODn (R)
Da die Gram-Schmidt-Orthogonalisierung eindeutig ist, gilt:
Satz 11.27. Sei B ∈ GLn (R). Dann existiert eine eindeutige Zerlegung B = OT mit
orthogonaler Matrix O ∈ On (R) und obere Dreiecksmatrix T ∈ ODn (R).
Korollar 11.28 (Iwasawa-Zerlegung). Sei B ∈ GLn (R). Dann existiert eine eindeutige Zerlegung B = ODT mit orthogonaler Matrix O ∈ On (R), einer Diagonalmatrix
D mit positiven Diagonalelementen und einer oberen Dreiecksmatrix T ∈ ODn (R).
Teil 2
Lineare Algebra II
Kapitel 12
Konvexe Geometrie
Polyhedra, lineare Ungleichungssysteme und lineare Programmierung stellen drei Facetten des gleichen Problemfeldes dar: eine geometrische, eine algebraische und eine optimierende Sichtweise. Diese Beziehungen wurden zuerst von J. Fourier um
1820 bemerkt und später im 20. Jahrhundert wiederentdeckt. In diesem Abschnitt
beschäftigen wir uns mit der geometrischen und der algebraische Sicht, auf die lineare Programmierung gehen wir in Kapitel 13 ein.
1. Konvexe Mengen
Zu p, q ∈ Rn bezeichnen wir die Verbindungsstrecke von p und q mit:
[p, q] := {λp + (1 − λ)q | 0 ≤ λ ≤ 1 }
= {λp + µq | λ ≥ 0, µ ≥ 0, λ + µ = 1 } .
Def inition 12.1 (Konvexe Menge). Eine Teilmenge K ⊆ Rn ist eine konvexe Menge,
wenn für alle p, q ∈ K gilt [p, q] ⊆ K, d.h. die Verbindungsstrecke in K liegt.
T
Sei (Ki )i∈I eine Familie konvexer Mengen, dann ist auch der Durchschnitt i∈I Ki
eine konvexe Menge. Die Vereinigung konvexer Mengen ist hingegen im allgemeinen
nicht konvex. Dies führt zum Begriff der konvexen Hülle:
Def inition 12.2 (Konvexe Hülle). Zu einer Teilmenge M ⊆ Rn ist die konvexe Hülle
\
kon(M ) :=
K.
M ⊆K
K konvex
Die konvexe Hülle kon(M ) von M ist die kleinste konvexe Menge, die M umfasst.
Zur vereinfachung der Notation schreiben wir kon(p1 , . . . , pk ) für die konvexe Hülle
einer Menge von Punkten p1 , . . . , pk .
P
Def inition 12.3 (Konvexkombination). Eine Linearkombination ki=0 λi pi von k+1
Punkten p0 , . . . , pk ∈ Rn mit λ0 , . . . , λk ∈ R heißt Konvexkombination, wenn λ0 , . . . , λk ≥
P
0 und ki=0 λi = 1.
133
134
12. Konvexe Geometrie
Zum Bespiel sind die Punkte einer Verbindungsstrecke [p, q] genau die Konvexkombinationen der Punkte p und q.
Lemma 12.4. Sei K ⊆ Rn eine konvexe Menge und p0 , . . . , pk ∈ K. Dann enthält
P
K jede Konvexkombination ki=0 λi pi von p0 , . . . , pk .
Beweis. Für k = 0 kommt nur p0 als Konvexkombination von p0 in Betracht, so
dass die Behauptung für k = 0 trivial ist. Für k ≥ 1 beweisen wir die Aussage durch
Induktion über k:
• Inmduktionsasis k = 1: Sei x eine Konvexkombination von p0 , p1 , diese liegt
auf der Verbindungsstrecke: x ∈ [p0 , p1 ]. Da K konvex ist, gilt [p0 , p1 ] ⊆ K
und es folgt x ∈ K.
P
• Induktionsschluß von k − 1 auf k: Sei x := ki=0 λi pi eine Konvexkombination. O.B.d.A. sei λk > 0. Dann ist
µ := 1 − λ0 = λ1 + · · · + λk > 0
und es gilt
λk
λ1
p1 + · · · + pk .
x = λ 0 p0 + µ
µ
µ
|
{z
}
=:y
Pk
Wegen λµ1 , . . . , λµk ≥ 0 und i=1 λµi = µµ = 1 ist y eine Konvexkombination
der k − 1 Punkten p1 , . . . , pk ∈ K. Nach Induktionssannahme gilt y ∈ K. Da
x=
k
X
λi pi = λ0 p0 + µy,
i=0
λ0 , µ ≥ 0 und λ0 + µ = 1 ist x eine Konvexkombination der beiden Punkte
p0 , y ∈ K. Wir erhalten aus der Induktionsverankerung die Behauptung.
Dies war zu zeigen.
Satz 12.5. Für jede Menge M ⊆ Rn gilt:
)
( k
k ∈ N und p , . . . , p ∈ M ,
X
0
k
P
,
kon(M ) =
λ i pi λ0 , . . . , λk ≥ 0 mit ki=0 λi = 1
i=0
d.h. die konvexe Hülle kon(M ) ist gleich der Menge L der Konvexkombinationen von
je endlich vielen Punkten aus M .
P
P
0 0
Beweis. Wir zeigen, dass L konvex ist. Seien x := ki=0 λi pi und x0 := m
i=0 λi pi
0
0
0
Konvexkombinationen von p0 , . . . , pk ∈ M und p0 , . . . , pm ∈ M . Zu zeigen ist [x, x ] ⊆
L. Sei
y := λx + λ0 x0 ∈ [x, x0 ]
mit λ, λ0 ≥ 0 und λ + λ0 = 1. Es gilt:
y = λx + λ0 x0 = λ
m
X
i=0
λ i pi + λ 0
m
X
i=0
λ0i p0i
1. Konvexe Mengen
135
P
Pm 0
0
mit λ m
i=0 λi + λ
i=0 λi ≥ 0. Damit ist y eine Konvexkombination der k + m
Punkten p0 , . . . , pk , p00 , . . . , p0m ∈ M , so dass y ∈ L gilt.
Def inition 12.6 (Polyeder, Polygon). Ein (konvexes) Polyeder P ⊆ Rn ist die konvexe Hülle endlich vieler Punkte kon(p0 , p1 , . . . , pk ). Polyeder im R2 heißen Polygone.
Im Englischen nennt man ein (konvexes) Polyeder Polytope. Ein Simplex ist ein einfaches Polyeder:
Abbildung 1. Simplices
s
s
s
s
s
0-Simplex
s
1-Simplex
s
s
2-Simplex
s
s
3-Simplex
Def inition 12.7 (Simplex). Die konvexe Hülle kon(p0 , . . . , pk ) von k + 1 Punkten
p0 , . . . , pk ∈ Rn heißt k-Simplex, wenn p1 − p0 , p2 − p0 , . . . , pk − p0 linear unabhängig
sind.
Die lineare Unabhängigkeit der Differenzvektoren ist unabängig von der Reihenfolge
der Punkte p0 , p1 , . . . , pk . Wir hatten in Definition 3.6 auf Seite 31 zu einem affinen
Teilraum A den Richtungsraum
R(A) = {p − a0 | p ∈ A } = {p − q | p, q ∈ A }
(mit festem a0 ∈ A) eingeführt. Der Richtungsraum ist ein von der Wahl des Punktes
a0 unabhängiger Vektorraum.
Def inition 12.8 (Dimension affiner Untervektorraum). Die Dimension eines affinen Untervektoraums A ist die Dimension seines Richtungsraums, also dim A :=
dim R(A).
Def inition 12.9 (Affine Hülle). Zu einer Teilmenge M ⊆ Rn ist die affine Hülle
\
aff(M ) :=
A.
M ⊆A
A affiner Teilraum
Die affine Hülle aff(M ) von M ist der kleinste affine Teilraum, der M umfasst.
Def inition 12.10 (Affin unabhängig). Die k + 1 Punkte p0 , . . . , pk ∈ Rn heißen affin
unabhängig, wenn p1 − p0 , p2 − p0 , . . . , pk − p0 linear unabhängig sind oder,äquivalent,
wenn dim aff(p0 , . . . , pk ) = k gilt.
Def inition 12.11 (Halbraum, Polyhedron). Sei ϕ : Rn → R eine lineare Abbildung
und b ∈ R. Eine Teilmenge
H = {x ∈ Rn | ϕ(x) ≥ b } ⊆ Rn
136
12. Konvexe Geometrie
heißt (affiner) Halbraum. Ein Polyhedron P ⊆ Rn ist der Durchschnitt endlich vieler
Halbräume. Die Dimension des Polyhedron P 6= ∅ ist
∃ affin unabhängige
dim P := dim aff(P ) = max k ∈ N .
p0 , p 1 , . . . , p k ∈ P
Abbildung 2. Halbraum
p p pp
ppp ppp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppp pp
p
p
p
p
p p pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp
p pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp pp
p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp p
pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp p
p pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp p
p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp
pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp p
pp ϕ(x)
ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp≥
p p p p p pbp p p p
p pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp pp p
p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp
pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp
pp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pp
p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp
pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp pp p p
p pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp pp p
p pp ppp ppp ppp pp pp p
p
ϕ(x) = b
Eine lineare Abbildung ϕ : Rn → R ist gegeben durch ϕ(x) = ax für einen
Zeilenvektor a ∈ Rn . Ein Polyhedron P können wir schreiben als Lösungsmenge eines
linearen Ungleichungssystems Ax ≥ b:
P = {x ∈ Rn | Ax ≥ b } .
Def inition 12.12 (Extremalpunkt, Ecke). Sei K ⊆ Rn eine konvexe Menge. Ein
Punkt p ∈ K heißt Extremalpunkt von K, falls kein q ∈ Rn \ {0} mit p ± q ∈ K
existiert. E(K) bezeichne die Menge der Extremalpunkte von K. Die Extremalpunkte
eines Polyhedron P nennt man Ecken von P .
Folgende, äquivalente Charakterisierungen der Extremalpunkte beweist man durch
elementares Nachrechnen:
Fakt 12.13. Sei K ⊆ Rn eine konvexe Menge. Dann sind folgende Aussagen äquivalent:
a) p ∈ E(K), d.h. p ist ein Extremalpunkt von K.
b) Es gibt keine Strecke [p1 , p2 ] ⊆ K mit p ∈ [p1 , p2 ] \ {p1 , p2 }.
c) K \ {p} ist konvex.
Lemma 12.14. Sei P := kon(p0 , . . . , pk ) ⊆ Rn ein Polyeder mit paarweise verschiedenen p0 , . . . , pk . Genau dann ist pk keine Ecke, wenn das Polyeder die konvexe Hülle
der übrigen Punkte ist, also P = kon(p0 , . . . , pk−1 ).
Beweis. Wir zeigen folgende Äquivalenz:
pk ∈
/ E(P )
Es gilt:
⇐⇒
pk ist Konvexkombination von p0 , . . . , pk−1
1. Konvexe Mengen
137
Abbildung 3. Ecke
−q
p p p pp pp ppp ppp ppp pppp pppp ppppp pppp ppp ppp pp p
I psp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp p
pppppppppppppppppppppppp
p ppp ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp ppp pp
p p p p p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp p
ppp ppppp ppppp pppppR
ppppppppppppppppp
ppp ppp ppp ppp ppp ppppp ppppp ppppp ppppp ppppp +q
p p p p p p p p p p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp p
pp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp ppp pp
p ppK
pp ppp ppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pp p
p pp pp ppp ppp ppp pp p
P
⇐“ Sei pk = k−1
Wegen pk ∈
/ {p0 , . . . , pk−1 } gilt
i=0 λi pi eine Konvexkombination.
”
P
λi < 1 für alle i, so dass aufgrund k−1
λ
=
1
mindestens
zwei der λi -Werte
i=0 i
ungleich Null sind. Seien o.B.d.A. λ0 , λ1 6= 0. Mit := min(λ0 , λ) gilt
pk ± (p0 − p1 ) ∈ P,
P
denn k−1
i=1 λi pi ± p0 ± p1 ist eine Konvexkombination von Punkten in P .
Folglich gilt pk ∈
/ E(P ).
⇒“ Sei pk ∈
/ E(P ). Es existiert ein q ∈ Rn \ {0} mit pk ± q ∈ P . Seien pk + q =
Pk−1
Pk−1 0
”
i=0 λi pi und pk − q =
i=0 λi pi Konvexkombinationen. Dann ist
k−1
(pk + q) + (pk − q) X λi + λ0i
=
pi
pk =
2
2
i=0
ebenfalls eine Konvexkombination von p0 , . . . , pk−1 ∈ P , so dass
kon(p0 , . . . , pk ) = kon(p0 , . . . , pk−1 ).
Mit P = kon(p0 , . . . , pk ) folgt die Behauptung.
Dies war zu zeigen.
Sei P := kon(p0 , . . . , pk ) ⊆ Rn ein Polyeder mit paarweise verschiedenen p0 , . . . , pk .
Nach Lemma 12.14 gilt
pk ∈ E(P )
⇐⇒
P 6= kon(p0 , . . . , pk−1 ),
so dass E(P ) ⊆ {p0 , . . . , pk } ist. Man kann alle Nicht-Extremalpunkte aus der Menge
{p0 , . . . , pk } entfernen, ohne die konvexe Hülle P zu verändern. Wir erhalten folgenden
Satz, der auf Minkowski1 zurückgeht:
Korollar 12.15 (Satz von Minkowski). Jedes Polyeder P ⊆ Rn ist die konvexe Hülle
seiner Ecken, kurz P = kon(E(P )).
Die Darstellung eines Polyeders als konvexe Hülle seiner Ecken ist minimal, kanonisch und explizit. Ziel ist es im folgenden, eine kanonische, explizite Darstellung
für Polyhedra zu finden. In Übungsaufgabe 13.2 wird gezeigt:
1Das Interesse von Hermann Minkowski (1864–1909) für konvexe Geometrie und lineare Un-
gleichungen kam aus der Zahlentheorie. Er formuliert und bewies zahlreiche wichtige Resultate für
konvexe Menge und deren Volumen. Mit seinem Buch Geometrie der Zahlen“ (1896) begründete er
”
das gleichnamigen Gebiet der Mathematik.
138
12. Konvexe Geometrie
Abbildung 4. Zerlegung in Simplices
p ppp ppp ppp ppp pp pp p p p p
pp pp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp pppp pppp ppp ppp ppp pp pp pp pp
p pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp p
ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppp p
ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp p
pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp p
p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp
p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp pp p p
ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp pp pp p p
p ppp ppp ppp ppp ppp ppp ppp ppp ppp pp pp pp p p
ppp pp pp p p p
Satz 12.16. Jedes Polyeder P ist die disjunkte“ Vereinigung von endlich vielen
”
Simplices S1 , S2 , . . . , St mit E(Si ) ⊆ E(P ). Disjunkt“ bedeutet, dass dim(Si ∩ Sj ) <
”
dim P für i 6= j.
Abbildung 4 zeigt ein Beispiel zur Aussage des Satzes 12.16: Der Polyeder ist die
disjunkte Vereinigung dreier Simplices.
Der Beweis zu folgendem Satz, wonach ein Polyeder ein Polyhedron ist, wird
ebenfall in Übungsaufgabe 13.2 geführt:
Satz 12.17. Jedes Polyeder P ⊆ Rn ist der Durchschnitt endlich vieler Halbräume
und ist somit ein Polyhedron.
Abbildung 5. Seite eines Polyhedron
H=
H=
H+
p pp pp p p H −
pp pp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp pppp ppp ppp pp p p
pppppppppppppppppppp
ppp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp pppp ppp pp pp p p
ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp p
ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp
pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp p
pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp P
ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppp pp p
p pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp p
p pp pp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp p
p p pp ppp ppp ppp p
H−
+
H
ppp ppp ppp pppp pppp ppppp pppp ppp ppp pp p
p
p
p
p
p
p
pp pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp p p
ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp ppp pp
ppppppppppppppppppppppppppppp
ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp ppp pp p
pppppppppppppppp
ppp pp ppp ppp ppp ppp ppp ppp ppp ppp P
ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp ppp pp
p pp pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp p
p p p pp ppp ppp ppp ppp ppp ppp pp p
p pp p
Def inition 12.18 (Seite eines Polyhedron). Sei P ⊆ Rn ein Polyhedron und H =
{x ∈ Rn | ϕ(x) ≥ b } ein Halbraum. Dann ist P ∩ H eine Seite von P zur Stützebene
H = := {x ∈ Rn | ϕ(x) = b }, falls P ∩ H ⊆ H = .
Der Polyhedron P und die leere Megne ∅ sind (uneigentliche) Seiten von P zur
Stützebene Rn . P ∩ H = ist genau dann eine Seite von P zur Stützebene H = , wenn
P ⊆ H + := {x ∈ Rn | ϕ(x) ≥ b }
oder
P ⊆ H − := {x ∈ Rn | ϕ(x) ≤ b } ,
1. Konvexe Mengen
139
d.h. H = schneidet P nicht im Inneren von P . Da ein Polyhedron der (endliche)
Durchschnitt von Halbräumen ist, können wir jede Seite als endlichen Durchschnitt
von Halbräumen darstellen:
Lemma 12.19. Jede Seite S eines Polyhedron P ist selbst ein Polyhedron. Jede Seite
von S ist ebenfalls eine Seite von P .
Seiten der Dimension k bezeichnet man als k-Seite des Polyhedron P . Wir nennen
1-Seiten Kanten und (dim P − 1)-Seiten Flächen des Polyhedron P . Die Ecken E(P )
des Polyhedron sind die 0-Seiten.
Satz 12.20. Sei P ⊆ Rn ein beschränkter Polyhedron. Dann ist P ein Polyeder mit
P = kon(E(P )).
Beweis. Die Behauptung ist trival für P = ∅ und k = 0 Wir beweisen die Aussage
des Satzes für die übrigen Fälle durch Induktion über k := dim P ≥ 1:
• Induktionsbasis k = 1: Es gilt P = [p1 , p2 ], E(P ) = {p1 , p2 } und P =
kon(p1 , p2 ).
• Induktionsschluß von k − 1 auf k: Der Polyhedron P habe die (k − 1)-Seiten
P1 , . . . , Pm . Der Polyhedron P hat m Flächen P1 , . . . , Pm , wenn er der Durchschnitt von m Halbräumen ist und kein Halbraum redundant ist. Wir setzen
zunächst voraus, dass
P = kon(P1 , . . . , Pm ).
(26)
Dann gilt:
[
[
m
m
(26)
Ind.Ann.
P = kon
Pi
= kon
kon(E(Pi ))
i=1
i=1
In Verbindung mit Übungsaufgabe 13.3 folgt, da die Ecken von P genau die
Ecken der Pi sind:
[
m
P = kon
E(Pi ) = kon(E(P )).
i=1
Zu zeigen bleibt Gleichung (26), d.h. für alle p ∈ P ist p ∈ kon
Sm
Abbildung 6. Schiefe Seiten Hi , Hj
p p p p p pp
ppp ppp ppp ppp pppp pppp pppp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp
p
p
p
p
p
p
p
p
p
p
p
p
p
p
ppp ppp ppp pppp pppp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp
pppppppppppppppppp
ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pppsppp ppp ppp ppp ppp p
pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp
p p pp pp pp p
ppp ppp pppp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp ppp pp p
p
p
p
p
p
p
p
j
ppp ppp pppp pppp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp ppp ppH
ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp sppp ppp ppp ppp ppp ppppppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pppp pp pp
pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp p
Hi
P unbeschränkt
Für den Fall p ∈
Sm
i=1 Pi
trifft dies offenbar zu, so dass im weiteren
p∈P \
m
[
i=1
Pi
i=1 Pi
.
140
12. Konvexe Geometrie
T
sei. Der Polyhedron ist der Durchschnitt P = m
j=1 Hj von m ≥ 2 paarweise
verschiedenen Halbräumen. Weil P beschränkt ist, gibt es Hi , Hj , die schief
zu einander liegen (vergleiche Abbildung 6, der rechte Fall ist nicht möglich).
Es existiert eine Gerade G durch p, so dass [p0 , p1 ] := G ∩ P beschränkt ist.
Aus
[
m
p ∈ kon(p0 , p1 ) ⊆ kon
Pi = kon(P1 , . . . , Pm )
i=1
folgt die Behauptung.
Dies war zu zeigen.
Wir wollen Satz 12.20 auf unbeschränkte Polyhedra erweitern. Die Gleichung (26)
gilt für beliebige Polyhedra bis auf die Sonderfälle
aff
• P = Rn (Rn hat keine eigentliche Seite) und
aff
• P = H für einen Halbraum H (H hat genau eine eigentliche Seite H = ).
aff
Dabei bezeichnet =“ affin ismorph:
”
Def inition 12.21 (Affin isomorph). Zwei Teilmenge M, M 0 ⊆ Rn sind affin isoaff
morph, M = M 0 , wenn es eine affine Isomorphie ψ : aff(M ) → aff(M 0 ) mit ψ(M ) =
M 0 gibt.
Sei aff(M ) = b + V mit Untervektorraum V ⊆ Rn und b ∈ Rn . Die Abbildung ψ :
b+V → b0 +V 0 ist ein affiner Isomorphismus, falls es einen Vektorraum-Isomorphismus
ϕ : V → V 0 mit ψ(b + x) = b0 + ϕ(x) gibt.
Lemma 12.22. Sei P ⊆ Rn ein
mit n := dim P , P 6= Rn und P kein
Sm Polyhedron
Halbraum. Dann gilt P = kon i=1 Pi für die (n − 1)-Seiten Pi von P .
Abbildung 7. Gerade G durch p
p0
p pp ppp pp p
ppppppp
ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp ppp pp p
p
p
p
p0 p pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp p
pppppppppppppppppppppp
prp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp p
ppp pp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppprppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp ppp pprp p1
ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppppppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp
pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp p
ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp rp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp
ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp
ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp rp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp
pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp ppppppppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp
ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp
p p p p p p p p p p p p p p p p rp p p p p p p p p p p p p p p p p p p p p p
p1
S
Beweis. Zu p ∈ P \ m
0 , p1] := G ∩ P
i=1 Pi gibt es eine Gerade G durch p, so dass
S[p
m
beschränkt ist (siehe Abildung 7). Aus p ∈ kon(p0 , p1 ) ⊆ kon i=1 Pi folgt die
Behauptung.
Es gilt:
Satz 12.23. Sei P ⊆ Rn ein Polyhedron
mit n := dim P , P 6= Rn und P kein
Sk
Halbraum. Dann gilt P = kon j=1 Hj für die eigentlichen Seiten H1 , . . . , Hk von
P , die affine Räume bzw. Halbräume sind (Ecken sind Hj der Dimension 0).
1. Konvexe Mengen
141
Beweis. Wir zeigen die Aussage durch Induktion über n. Die Verankerung für n = 0
ist trivial. Sei n ≥ 1. Es gilt für die (n − 1)-Seitenflächen P1 , . . . , Pm von P :
Lemma 12.22
P
⊆
[
[
m
k
Ind.Ann.
kon
Pi
⊆ kon
Hj .
i=1
j=1
Entweder ist die Induktionsvoraussetzung anwendbar auf Pi oder Pi = Hj für ein j.
Die Seitenfläche der Dimension maximal n − 2 von P sind genau die Seitenfläche der
Dimension höchstens n − 2 der P1 , . . . , Pm .
Abbildung 8. Halbraum als Konvexe Hülle von Halbstrahlen
p p pp
ppp ppp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppp pp
p
p
p
p
p p pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp
p pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp pp
p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp p
p p p p p p p p p p p p p p p p p p p p p pp
] p ppp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp pp p
p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp
pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp 3
p p p pp p p p p p
pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp ppp p
p pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp p
p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp
pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp
pp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp +
pp pp pp pp pp pp pp pp pp
p p p p p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp p
p ppp ppp ppp ppp ppp ppp H
pp ppp ppp ppp ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp pppp ppp ppp pp
p pp pp pp pp pp pp pp pp pp pp pp pp pp p
^ pp ppp pppp pppp pppp ppp ppp pp p p
p
H=
Def inition 12.24 (Halbgerade). Eine Teilmenge G ⊆ Rn heißt Halbgerade, falls es
a, a0 ∈ Rn gibt mit
G = {a0 + λa | λ ∈ R≥0 } .
Jeder Halbraum im Rn ist die konvexe Hülle von n + 1 Halbgeraden (vergleiche Abbildung 8).
Korollar 12.25. Eine Teilmenge P ⊆ Rn ist genau dann ein Polyhedron, wenn P
die konvexe Hülle von endlich vielen Punkten und Halbgeraden ist.
Die Zerlegung eines Polyhedron P ⊆ Rn in ein Polyeder P 0 und einen sogenannten
Kegel C
P = P0 + C
(vergleiche Abbildung 9) ist eindeutig, sofern E(P ) = E(P 0 ) Es gilt dann für C:
n Aus p ∈ P folgt p + λx ∈ C
C := x ∈ R .
für alle λ ∈ R≥0
Wir beschäftigen uns mit Kegeln in Abschnitt 3.
142
12. Konvexe Geometrie
Abbildung 9. Zerlegung Polyhedron in Polyeder und Kegel
-
=
+
-
2. Funktionen über konvexen Mengen
In diesem Abschnitt betrachten wir konvexe (konkave, lineare) Funktionen über konvexen Menge.
Def inition 12.26 (Konvexe Funktion). Sei K ⊆ Rn eine konvexe Menge. Eine
Funktion f : K → R heißt konvex, wenn für alle p, q ∈ K und λ ∈ [0, 1] gilt:
f (λp + (1 − λ)q) ≤ λf (p) + (1 − λ)f (q).
(27)
Induktiv folgt aus Eigenschaft (27): Falls f eine konvexe Funktion ist, gilt für jede
Konvexkombination der Punkte p0 , . . . , pk ∈ K:
X
X
k
k
f
λ i pi ≤
λi f (pi ).
i=0
i=0
Im Fall K ⊆ R gilt für konvexe Funktionen, dass wie in Abbildung 10 die Funktionswerte nicht oberhalb der Verbindungsstrecke [p, q] liegen.
Abbildung 10. Konvexe Funktion
f
p
r
r
q
Wir wollen eine konvexe Funktion f über einer konvexen Menge K minimieren.
Ein Punkt p heißt lokale Minimalstelle, wenn in einer -Umgebung
U (p) := {q ∈ K : kp − qk ≤ }
um p die Funktionswerte f (p) ≤ f (q) sind. Für konvexe Funktionen ist jede lokale
Minimalstelle p eine globale Minimalstelle, d.h. f (p) ≤ f (q) für alle q ∈ K:
2. Funktionen über konvexen Mengen
143
Satz 12.27. Sei K ⊆ Rn eine konvexe Menge und f : K → R eine konvexe Funktion.
Dann ist jede lokale Minimalstelle von f globale Minimalstelle.
Beweis. Sei p ∈ K eine lokale Minimalstelle. Dann existiert ein ∈ (0, 1), so dass
die Funktionswerte der Punkte in der -Umgebung U (p) nicht kleiner als f (p) sind:
∀q ∈ U (p) :
f (p) ≤ f (q).
(28)
Angenommen, p sei keine gobale Minimalstelle von f , d.h. es gäbe ein y ∈ K mit
f (y) < f (p). Betrachten wir die Punkte der Verbindungsstrecke [p, y] ⊆ K, die in der
-Umgebung U (p) liegen. Für λ ∈ (0, ) gilt, weil f eine konvexe Funktion ist:
f (λp + (1 − λ)y) ≤ λf (p) + (1 − λ) f (y) < λf (p) + (1 − λ)f (p) = f (p),
|{z}
<f (p)
so dass ein Punkte q ∈ [p, y] ∩ U (p) mit f (q) < f (p) existiert — Widerspruch zu
(28).
Aus Satz 12.27 folgt für eine konkave Funktion f , dass eine lokale Maximalstelle von
f globale Maximalstelle ist:
Def inition 12.28 (Konkave Funktion). Sei K ⊆ Rn eine konvexe Menge. Eine
Funktion f : K → R heißt konkav, wenn −f eine konvexe Funktion ist.
In der linearen Programmierung versuchen wir, eine lineare Funktion f über einem
konvexen Polyeder zu optimieren (minimieren oder maximieren). Da lineare Funktionen sowohl konvex als auch konkav sind, hat man die globale Extremalstelle gefunden,
wenn es sich um eine lokale Optimalstelle handelt.
Satz 12.29. Sei P ⊆ Rn ein Polyeder und f : P → R eine konvex Funktion. Dann
gilt
sup f (p) = max f (p),
p∈E(P )
p∈P
d.h. f nimmt das Maximum an einer Ecke an.
Beweis. Angenommen, es gäbe einen Nichtecke y ∈ P \ E(P ) mit
f (y) > max f (p).
p∈E(P )
Nach Korollar 12.15 ist der Punkt y eine Konvexkombination von Ecken p0 , . . . , pk
P
des Polyeders, d.h. y = ki=0 λi pi mit λi 6= 0. Weil die Funktion f konvex ist und
Pk
i=1 λ = 1 gilt, erhalten wir folgende Abschätzung:
X
X
k
k
f (y) = f
λ i pi ≤
λi f (pi ) ≤ max f (pi ) ≤ max f (p)
i=0
i=0
i
p∈E(P )
Dies ist ein Widerspruch zur Annahme f (y) > maxp∈E(P ) f (p).
Weil eine lineare Funktion sowohl konvex als auch konkav ist, folgt aus Satz 12.29,
dass beim Optimieren einer linearen Funktion über einem Polyeder eine optimale
Ecke existiert:
144
12. Konvexe Geometrie
Korollar 12.30. Sei P ⊆ Rn ein Polyeder und f : Rn → R eine lineare Funktion.
Dann gilt:
a) sup f (P ) = maxp∈E(P ) f (p).
b) inf f (P ) = minp∈E(P ) f (p).
Für Polyhedra gilt ein entsprechendes Resultat, dass wir in Kapitel 13 (Satz 13.5
auf Seite 156) beweisen werden:
Korollar 12.31. Sei P ⊆ Rn ein Polyhedra mit E(P ) 6= ∅ und f : Rn → R eine
lineare Funktion. Dann gilt
a) sup f (P ) = maxp∈E(P ) f (p), sofern sup f (P ) < +∞.
b) inf f (P ) = minp∈E(P ) f (p), sofern inf f (P ) > −∞.
Der Satz von Minkowski, Korollar 12.15 auf Seite 137, wonach ein Polyeder die
konvexe Hülle seiner Ecken ist, gilt nicht nur für Polyeder, sondern für beliebige konvexe, abgeschlossene, beschränkte Mengen. Analog zu Satz 12.29 nimmt eine konvexe
Funktion f ihr Maximum an einer Extremalstelle an, unter der Voraussetzung, dass
die konvexe Menge Extremalpunkte hat und f beschränkt ist:
Satz 12.32. Sei K ⊆ Rn eine konvexe, abgeschlossene, beschränkte Menge mit
E(K) 6= ∅ und f : K → R eine konvexe Funktion. Dann gilt:
a) K = kon(E(K)).
b) sup f (K) = maxp∈E(K) f (p), sofern sup f (K) < +∞.
Abbildung 11. Trennungslemma
H=
ϕ(x) ≤ ϕ(x0 )
q
r
w
y
p p p p p pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp
p pp pp pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp
pp pp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp
p pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp
ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp K
pppppppppppppp
ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp
spppppx
pp pp ppp ppp0ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp
pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp
p pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp
p p pp pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp
pppppppppppppppppppp
r
Zum Abschluß formulieren und beweisen wir das sogenannte Trennungslemma,
das später zu Dualitätsbeweisen verwendet wird:
Satz 12.33 (Trennungslemma). Sei K ⊆ Rn eine konvexe, abgeschlossene Menge
und q ∈ Rn \ K ein Punkt außerhalb von K. Dann gibt es eine lineare Funktion
ϕ : Rn → R mit ϕ(x) > ϕ(q) für alle x ∈ K.
3. Kegel und Farkas’ Lemma
145
Beweis.
Sei h·, ·i das Standardskalarprodukt und k·k die euklidsche Norm, d.h. kxk =
p
hx, xi. Die Funktion x 7→ kx − qk nimmt ihr Minimum für x ∈ K im nächsten“
”
K-Punkte x0 zu q an (vergleiche Abbildung 11). Setze:
ϕ(x) := hx, x0 − qi = (x0 − q)T x.
Sei H = := {x ∈ Rn | ϕ(x) = ϕ(x0 ) } wie in Abbildung 11. Der Richtungsraum R(H = )
der Hyperebene H = ist orthogonal zu x0 − q. Es gilt für den vorgegebenen Punkt
q ∈ Rn \ K:
hq, x0 − qi = ϕ(q) ≥ ϕ(x0 ) = hx0 − q + q, x0 − qi = kx0 − qk2 + hq, x0 − qi .
Angenommen, es existierte ein y0 ∈ K mit ϕ(y) < ϕ(x0 ). Zu Vereinfachung der
Notation sei q := 0. Weil K konvex ist, gilt [x0 , y0 ] ⊆ K, d.h. zu jedem λ ∈ [0, 1] gilt
y(λ) := x0 + λ(y0 − x0 ) ∈ K.
Wir zeigen, dass die Norm von y := y(λ) von x0 weg, also mit zunehmendem λ,
zunächst abnimmt, was der Wahl von x0 widerspricht. Es ist:
f (λ) := kx0 k2 − kyk2
= hx0 , x0 i − hy, yi
= −λ2 hy0 − x0 , y0 − x0 i + 2λ(hx0 , x0 i − hx0 , y0 i)
Die Ableitung f 0 der Funktion f : R → R an der Stelle λ = 0 liefert:
f 0 (0) = 2(hx0 , x0 i − hx0 , y0 i).
Es existiert ein > 0, so dass für y = y(λ) mit 0 < λ < gilt:
kyk < kx0 k
Dies ist ein Widerspruch zur Wahl von x0 , so dass unsere Annahme, es gäbe ein
y0 ∈ K mit ϕ(y) < ϕ(y0 ) falsch ist.
Im Beweis zum Trennungslemma ist H = Stützebene durch x0 , das auf dem Rand
Rd(K) der Menge K liegt. Zu jedem x0 ∈ Rd(K) gibt es eine Stützebene mit x0 ∈ H =
und K ⊆ H + .
3. Kegel und Farkas’ Lemma
Zur Vorbereitung des Beweises zu Farkas’ Lemma führen wir die Begriffe des Kegels
und Polydehrals ein und weisen Eigenschaften nach.
Def inition 12.34 (Kegel, Polyhedral). Ein (konvexer) Kegel (Cone) ist eine nichtleere Teilmenge C ⊆ Kn , so dass mit c1 , c2 ∈ C auch λ1 c2 + λ2 c2 ∈ C für alle
λ1 , λ2 ∈ R≥0 gilt. Ein Kegel der Form C = {x | Ax ≤ 0 } heißt polyhedral.
Ist (Ci )i∈I eine Familie von Kegeln, dann ist auch der Durchschnitt
Kegel.
T
i∈I
Ci ein
146
12. Konvexe Geometrie
Abbildung 12. Beispiel Kegel
x2
6
pp pppp pp
pp pp ppppp ppppp ppppp ppppp ppppp pppp pp
pp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp ppp p
pp pp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp pp p
pppppppppppppppppppp
p ppp ppp ppp ppp ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppp pp
pp pp ppppp ppppp ppppp ppppp ppppp ppppp ppppp C
pppppppppppppppppppp
p p p p p p p p p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp p
ppp ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp pppp pppp pppp pppp pppp pp
pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp p p p p p
p ppp ppp ppp pp pp pp pp pp pp p p p p p
- x1
0
Def inition 12.35 (Endlich erzeugter Kegel). Zu einer Teilmenge M ⊆ Rn ist
\
cone(M ) :=
C.
C⊇M
C Kegel
der kleinste Kegel, der M umfasst.
In Übungsaufgabe 15.1 zeigen wir:
Satz 12.36. Für jede Menge M ⊆ Rn gilt:
)
( k
X
k ∈ N und p0 , . . . , pk ∈ M ,
cone(M ) :=
λ i pi .
λ0 , . . . , λ k ≥ 0
i=0
Vergleicht man diese Darstellung mit der einer konvexen Menge aus Satz 12.5 auf
Seite 134, so folgt cone(M ) = R≥0 · kon(M ).
Lemma 12.37. Der Durchschnitt von beliebig vielen, endlich erzeugten Kegel ist
endlich erzeugt.
Beweis. Der Durchschnitt von Polyedern ist wieder ein Polyeder, sofern er nicht leer
ist. Der Durchscnitt von Kegel ist nie leer, denn er enthält den Nullpunkt.
Def inition 12.38 (Dualer Kegel). Der duale Kegel zu einem Kegel C ⊆ Rn ist
C ∗ := y ∈ Rn xT y ≥ 0 für alle x ∈ C .
C ∗ ist ein Kegel, denn zu y1 , y2 ∈ C ∗ gilt für x ∈ C und λ1 , λ2 ≥ 0:
xT (λ1 y1 + λ2 y2 ) = λ1 xT y1 +λ2 xT y2 ≥ 0 + 0 = 0,
| {z }
| {z }
≥0
so dass aus y1 , y2 ∈
C∗
folgt λ1 y1 + λ2 y2 ∈
≥0
C ∗.
3. Kegel und Farkas’ Lemma
147
Abbildung 13. Beispiel Kegel und dualer Kegel
6
0
C∗
p p p pp pp pp ppp
ppp ppp ppp pppp pppp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp
p
p
p
p
p
p
p
p
p
p p p pp pp pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp
pqpqpp ppp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp
p p p pp pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pppC
ppppppppppppppppp
p p pp pp ppp ppp ppp ppp ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp
p p pp pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp
p p pp pp ppp ppp ppp ppp ppp ppp ppp ppp
p p p pp pp ppp
Beispiel 12.39. Abbildung 13 zeigt einen Kegel C und den dualen Kegel C ∗ . Seien
Csub , C ⊆ R2 Kegel mit Csub ⊆ C, dann gilt für die dualen Kegel die umgekehrte
∗
Inklusion Csub
⊇ C ∗ . Falls C = R2 , dann besteht der duale Kegel nur aus dem
Ursprung C ∗ = {0}.
Wir haben im Kapitel 7 über lineare Codes gesehen, dass der duale des dualen
Codes C ⊥ der Ausgangscode C ist. Die gleiche Aussage trifft auch auf den dualen
eines dualen Kegels C ∗ zu, sofern C abgeschlossen ist:
Satz 12.40. Sei C ⊆ Rn ein abgeschlossener Kegel. Dann gilt (C ∗ )∗ = C.
Beweis. Es gilt:
C ∗ = y ∈ Rn
(C ∗ )∗ = z ∈ Rn
T
x y ≥ 0 für alle x ∈ C
T
y z ≥ 0 für alle y ∈ C ∗
Nach Definition gilt y T x = xT y ≥ 0. für alle x ∈ C und y ∈ C ∗ , so dass C ⊆ (C ∗ )∗ .
Zu zeigen bleibt die Inklusion (C ∗ )∗ ⊆ C. Angenommen, diese Inklusion sei falsch,
d.h. es existiert ein z ∈ (C ∗ )∗ mit z ∈
/ C. Sei
x ∈ Rn ϕ(x) := uT x = u0
die Trennungsebene zu z und C. Gemäß Trennungslemma, Satz 12.33 auf Seite 144,
gilt:
• ϕ(z) = uT z ≤ u0 und
• ϕ(x) = uT x ≥ u0 für alle x ∈ C.
Dann ist ϕ(x) für x ∈ C nach unten beschränkt. Die Abbildung ϕ(x) nimmt ihr
Minimum 0 an, und zwar an der Stelle x = 0. Die Abschätzung
uT z ≤ u0 ≤ uT x = ϕ(x)
für alle x ∈ C
impliziert uT z ≤ 0 (wegen ϕ(0) = 0 und 0 ∈ C). Aus uT x ≥ 0 für alle x ∈ C folgt
u ∈ C ∗ . Wir erhalten den Widerspruch z ∈
/ (C ∗ )∗ , denn aufgrund
uT z < 0
ist die Forderung y T z ≥ 0 nicht erfüllt für alle y ∈ C ∗ .
Satz 12.41. Sei C ⊆ Rn ein abgeschlossener Kegel. Dann gilt:
148
12. Konvexe Geometrie
a) C ist genau dann endlich erzeugt, wenn C ∗ endlich erzeugt ist.
b) C ist genau dann endlich erzeugt, wenn C polyhedral.
Beweis. Zu x ∈ R sei y1 , . . . , yn−1 eine Basis von span(x)⊥ = (xR)⊥ . Der duale
Kegel
cone(x)∗ = cone(x, y1 , . . . , yn−1 )
ist endlich erzeugt.
Abbildung 14. Basis von (xR)⊥
x
0
(xR)⊥
a) Sei C = cone(x1 , . . . , xk ) endlich erzeugt. Dann gilt
C ∗ = cone(x1 , . . . , xk )∗ =
k
\
cone(xi )∗ ,
(29)
i=1
denn
X
k
i=1
λi xi
T
·y =
k
X
λi xTi y ≥ 0
i=1
folgt xTi y ≥ 0 für alle i und umgekehrt. Also ist der duale Kegel C ∗ der
Durchschnitt von endlich erzeugten Kegeln und nach Übungsaufgabe 15.3
somit endlich erzeugt.
Wir haben gezeigt, dass mit C ebenfalls der duale Kegel C ∗ endlich
erzeugt ist. Weil C nach Voraussetzung abgeschlossen ist, wenden wir Satz
12.40, also (C ∗ )∗ = C, an und erhalten die Rückrichtung der Behauptung.
b) Angenommen, C = {x | Ax ≤ 0 } sei Polyhedral. Bezeichne aT1 , . . . , aTm die
Zeilenvektoren der Matrix A. Aufgrund von Gleichung (29) gilt:
C=
m
\
cone(aTi )∗ = cone(aT1 , . . . , aTm )∗ .
i=1
Nach Übungsaufgabe 15.3 ist C als Durchschnitt von endlich erzeugten Kegeln ebenfalls endlich erzeugt.
3. Kegel und Farkas’ Lemma
149
Sei umgekehrt C = cone(x1 , . . . , xk ) ein endlich erzeugter Kegel. Nach
Satz 12.40 gilt:
∗
∗
C = cone(x1 , . . . , xk )∗ = y y T xi ≥ 0 für i = 1, 2, . . . , k
.
|
{z
}
=C ∗
C ∗ polyhedral.
Also ist der endlich erzeugte, duale Kegel
Nach Satz 12.40
∗
folgt: Falls C endlich erzeugt ist, dann ist ebenfalls C = (C ∗ )∗ endlich
erzeugt und polyhedral. Dies war zu zeigen.
Satz 12.42 (Farkas’ Lemma). Für A ∈ Mm,n (R) und c ∈ Rm sind folgende Aussagen
äquivalent:
a) Für alle x ∈ Rm mit Ax ≥ 0 gilt cT x ≥ 0.
b) Es existiert ein y ∈ Rm mit y ≥ 0 und cT = y T A.
Beweis. Sei C der von den Zeilenvektoren aT1 , . . . , aTm der Matrix A erzeugten Kegel.
Gemäß Satz 12.36 gilt:
(m
)
X
C := cone(aT1 , . . . , aTm ) =
λi aTi λ1 , . . . , λm ≥ 0 .
i=1
aTi x
Da die Forderung Ax ≥ 0 und
≥ 0 für i = 1, . . . , m gleichwertig sind, haben wir
n
für alle x ∈ R folgende Äquivalenz:
Ax ≥ 0
⇐⇒
x ∈ C ∗.
Damit folgt:
• Aussage a) ist äquivalent zu c ∈ (C ∗ )∗ .
• Aussage b) ist äquivalent zu c ∈ C.
Weil C ein abgeschlossener Kegel ist, erhalten wir C = (C ∗ )∗ aus Satz 12.40, d.h. beide
Aussagen sind gleichwertig.
Wir folgern aus Farkas’ Lemma, Satz 12.42, die nachstehende Variante:
Korollar 12.43 (Farkas’ Lemma – Variante I). Für A ∈ Mm,n (R) und b ∈ Rn sind
folgende Aussagen äquivalent:
a) Es existiert ein x ≥ 0 mit Ax ≤ b.
b) Für alle y ∈ Rm mit y T A ≥ 0 gilt y T b ≥ 0.
Beweis. Setze Aext := (A, Im ) ∈ Mm,m+n (R). Folgende Aussagen sind äquivalent,
denn Ax ≤ b kann man gleichwertig schreiben als Ax + s = b mit s ≥ 0:
a) Es existiert ein x ∈ Rn mit Ax ≤ b.
b’) Es existiert ein xext ≥ 0 mit Aext xext = b.
Wir wenden Farkas Lemma 12.42 mit A := AText und c := b auf Aussage b’) an und
erhalten, dass
a) Es existiert ein x ≥ 0 mit Ax ≤ b.
150
12. Konvexe Geometrie
b) Für alle y ∈ Rm mit y T Aext ≥ 0 gilt bT y ≥ 0.
äquivalent sind.
In Übungsaufgabe 17.3 geben wir eine weitere Variante von Farkas’ Lemma:
Korollar 12.44 (Farkas’ Lemma – Variante II). Für A ∈ Mm,n (R) und b ∈ Rn sind
folgende Aussagen äquivalent:
a) Es existiert ein x ∈ Rn mit Ax ≤ b.
b) Für alle y ∈ Rm mit y ≥ 0 und y T A = 0 gilt y T b ≥ 0.
4. Eulers Polyederformel
Wir wollen zum Abschluß des Kapitels Eulers Polyederformel für Polyeder mit einfachen Ecken beweisen:
Satz 12.45 (Euler, Poincaré 1893/99). Sei P ein d-Polyeder, fi bezeichne die Anzahl
der i-Seiten von P . Dann gilt:
d−1
X
(−1)i fi = 1 + (−1)d+1 .
i=0
Für die Anzahl der Ecken schreibt man V := #E(P ) (vertices), für die Anzahl
der Kanten E (edges) und F für die Anzahl der Flächen (faces). Für d = 2, 3 lautet
die Euler’sche Polyederformel:
V −E =0
V −E+F =2
d=2:
d=3:
Man vergleiche die Ergebnisse mit den Beispielen in Abbildung 15. Für d = 2 gilt
V = E = 5, so dass V − E = 5 − 5 = 0 ist. Der 3-Simplex hat V = 4 Ecken, E = 6
Kanten und F = 4 Flächen, so dass V − E − F = 4 − 6 + 4 = 2 ist.
Abbildung 15. Euler’sche Polyederformel d = 2, 3
s
s
s
s
s
s
s
s
s
Poincarés Beweis basiert auf algebraischen Methoden. Wir wollen den Beweis mit
unseren Mitteln für Polyeder P mit einfachen Ecken führen. Wir nehmen an, jede
Ecke p ∈ E(P ) des d-Polyeders habe d Nachbarecken, und führen den Beweis durch
Induktion über die Anzahl #E(P ) der Ecken.
Für die Induktionsverankerung sei #E(P ) = d + 1, d.h. P ist ein d-Simplex. Im
d-Simplex ist eine i-Seite S charakterisiert durch eine Auswahl von i + 1 aus d + 1
4. Eulers Polyederformel
151
Ecken, die auf S liegen:2
fi =
d+1
.
i+1
(30)
Für 0-Seiten ist d+1
= d + 1, denn eine 0-Seite ist eine der d + 1 Ecken. Für 1-Seiten
1
d(d+1)
d+1
ist 2 = 2 , denn jeweils zwei der Ecken bilden eine Kante. Wegen Gleichung
(30) gilt:
d−1
X
d−1
X
d+1
(−1) fi =
(−1)
i+1
i=0
i=0
d−1
X
i−1 d + 1
=
(−1)
i
i=1
d
X
i d+1
=−
(−1)
i
i=1
d+1
X
i d+1
0 d+1
d+1 d + 1
=−
(−1)
+ (−1)
+ (−1)
.
i
0
d+1
i
i
i=0
Wegen
d+1
0
= 1 und
d−1
X
d+1
d+1
= 1 erhalten wir die Behauptung
i
d+1
(−1) fi = 1 + (−1)
−
i=0
denn aus (a + b)n =
Summe Null ist.
d+1
X
|i=0
Pn
i=0
n
i
i
(−1)
d+1
i
{z
= 1 + (−1)d+1 ,
}
=(1−1)d+1
ai bn−i folgt mit a = −1, b = 1 und n = d + 1, dass die
Für den Induktionsschluß erniedrigen wir die Anzahl #E(P ) der Ecken. Wähle
e ∈ E(P ). Sei H = die Hyperebene durch die d Nachbarecken von e. Sei o.B.d.A. e ∈
H + . Wie haben den Polyeder P zerlegt in
• einen d-Simplex P ∩ H + und
• einen Polyeder P ∩ H − mit weniger als #E(P ) Ecken.
Bezeichne mit fi die Anzahl der i-Seiten von P und mit fi0 die Anzahl der i-Seiten von
P ∩ H − . Die Behauptung folgt aus der Induktionsannahme angewendet auf P ∩ H − ,
wenn
d−1
X
(−1)i (fi − fi0 ) = 0.
(31)
i=0
2Für 0 ≤ k ≤ n ist der Binomialkoeffizient erklärt als
n
k
n!
:= k!(n−k)!
, d.h. gleich der Anzahl
der Möglichkeiten, eine
Teilmenge
von
k
Elementen
aus
einer
Menge
von
n
Elementen
auszuwählen.
Insbesondere gilt n
= 1 und n0 = 1.
n
152
12. Konvexe Geometrie
Wir zeigen zunächst

d


fi −
i
fi0 =
d


fi −
+1
i
für i ≤ d − 1
(32)
für i = d − 1.
P ∩H + ist ein d-Simplex. F”ur i < d−1 ist fi −fi0 die Anzahl der i-Seiten von P ∩H +
durch e. Eine i-Seite von P ∩ H + durch e ist charakterisiert durch die Auswahl von i
der d Nachbarecken von e in P ∩ H + . Für i = d − 1 ist fi die Anzahl der (d − 1)-Seiten
von P ∩ H + durch e minus 1.
Wir wenden Gleichung (32) an und erhalten (31):
d−1
d−1
X
X
i
0
i d
(−1) (fi − fi ) =
(−1)
− (−1)d−1
i
i=0
i=0
d
X
d d
i d
−(−1)
−(−1)d−1
=
(−1)
d
i
|{z}
}
|i=0 {z
=(1−1)d =0
= 0.
Dies komplettiert den Induktionsschritt.
=1
Kapitel 13
Lineare
Programmierung
Wir haben in Kapitel 12 die globalen Extremalstellen von konvexen und konkaven
Funktionen über konvexen Mengen untersucht. In diesem Kapitel beschäftigen wir
uns mit dem Fall linearer Funktionen und lernen mit dem Simplex-Algorithmus ein
praktikales Verfahren kennen, um eine Lineareform unter Berücksichtigung von linearen Ungleichungen zu optimieren.
1. Einleitung
In der linearen Programmierung maximiert oder minimiert man eine Linearform in
n Variablen x1 , . . . , xn unter Beachtung von m Restriktionen, die in Form linearer
Gleichungen oder Ungleichungen gegeben sind, und der Forderung, dass die Variablen
nicht negativ sind:
n
n≤o
n
P
minimiere P
c x , so dass
aij xj = bi für i = 1, 2, . . . , m
≥
maximiere j=1 j j
j=1
xj ≥ 0 für j = 1, 2, . . . , n.
Eine solche Aufgabe nennt man lineares Programm und das Lösen lineares Programmieren. Die zu optimierende Linearform heißt Ziel- oder auch Objektfunktion, im Fall
einer Minimierungsaufgabe spricht man angelehnt an die wirtschaftliche Interpretation von der Kostenfunktion. Die Forderung x1 , . . . , xn ≥ 0 wird als Nichtnegativitätsbedingung bezeichnet. Falls eine Variable xi auch negative Werte nehmen darf, also
xi eine freie Variable ist, besteht eine Möglichkeit, xi durch die Differenz yi − zi
für zwei neue Variable yi ,zi zu ersetzen und diese der Nichtnegativitätsbedingung zu
unterwerfen. (Variablen-Splitting).
Zur Vereinfachung der Darstellung verwenden wir die übliche Matrix/VektorSchreibweise. Da die Maximierung von cT x äquivalent zur Minimierung von −cT x ist,
genügt es, Minimierungsaufgaben zu betrachten. Bei den Restriktionen beschränken
wir uns auf ≤“-Ungleichungen, da die Bedingung ai x ≥ bi gleichwertig zu −ai x ≤ −bi
”
153
154
13. Lineare Programmierung
ist und die Gleichung ai x = bi äquivalent zu den beiden Ungleichungen ai x ≤ bi ,
−ai x ≤ −bi ist.
Def inition 13.1 (Kanonische Form eines linearen Programms). Die kanonische
Form eines linearen Programms in n Variablen mit m Restriktionen lautet
minimiere cT x,
so dass Ax ≥ b
x ≥ 0,
wobei A eine m × n-Matrix, b ein Spaltenvektor mit m Einträgen und c ein Spaltenvektor mit n Einträgen ist.
Georg Dantzig arbeitete während des Zweiten Weltkrieges bei der US-Luftwaffe
an der Aufstellung von Plänen (Programmen) zur Logistik und Produktion. Für komplexere Programme suchte Dantzig nach einer mechanischen Methode zum Lösen.
Als Modell übernahm er das Input-Output-Modell von Leontief aus dem Jahr 1932.
In diesem Modell sind die Beziehungen zwischen den Produktionsfaktoren beschränkt
und die Einsatzmenge der Ressourcen und die Ausbringungsmenge stehen in einem
proportionalen Verhältnis. Dantzig ergänzte die Optimierung nach einer linearen
Zielfunktion und entwickelte im Sommer 1947 den Simplex-Algorithmus.1 Der Wirtschaftswissenschaftler Koopmans erkannte die Bedeutung der linearen Programmierung für die Unternehmensplanung (Operation-Research) und legte den Grundstein
der Popularität der linearen Programmierung in den Wirtschaftwissenschaften. Auf
ihn geht auch die Bezeichnung lineare Programmierung“ zurück: Er hatte 1951 diese
”
Bezeichnung als Alternative zu Dantzigs Titel Programming in a linear Structure“
”
(Report der US-Luftwaffe 1948) vorgeschlagen. Für den Erfolg der linearen Programmierung ist neben den Anwendungen in der Unternehmensplanung auch die Entwicklung der ersten Rechenmaschinen entscheidend: Mit dem Simplex-Algorithmus
konnten lineare Programme gelöst werden, die bislang zu komplex waren.
Parallel zur Entwicklung im Westen hatte sich seit 1939 der russische Mathematiker Kantorvicz mit speziellen Produktionsproblemen und deren mathematischer
Struktur beschäftigt sowie Verfahren für diese Klasse linearer Programme entwickelt.
Die Arbeiten blieben im Osten unbeachtet und im Westen bis Ende der fünfziger
Jahre gänzlich unbekannt. Die königlich schwedische Akademie der Wissenschaften
zeichnete 1975 Koopmans und Kantorvicz mit dem Nobelpreis für Wirtschaftswissenschaften aus. Dantzig wurde nicht ausgezeichnet, da die Akademie dessen Beitrag
als zu mathematisch für eine Auszeichnung in Wirtschaftswissenschaften einstufte.
2. Ecken und Basislösungen
Wir haben bereits die kanonische Form eines linearen Programms in n Variablen mit
m Restriktionen kennengelernt:
minimiere cT x, so dass Ax ≥ b
x ≥ 0,
1Die Idee des Simplex-Algorithmus’, iterativ von einer Ecke des Polyhedrons zu einer benach-
barten Ecke mit niedrigem Zielwert zu gehen, ist jedoch nicht neu: Sie fand sich bereits in Arbeiten
von Fourier (1823) und de la Vallée-Poussin (1911), die allerdings unbeachtet blieben.
2. Ecken und Basislösungen
155
wobei A eine m×n-Matrix, b ein Spaltenvektor mit m und c einer mit n Einträgen ist.
Für Beweise und Algorithmen sind Restriktionen der Form Ax = b statt Ax ≥ b vorteilhafter. Durch Einführen von m Slack-Variablen (auch Schlupfvariablen genannt)
r mit r ≥ 0 transformieren wir Ax ≥ b in Ax − r = b, d.h. ergänzen die Koeffizientenmatrix rechts durch eine (negierte) Einheitsmatrix und erhalten ein äquivalentes
Programm in n + m Variablen:
Def inition 13.2 (Standardform eines linearen Programms). Die Standardform eines
linearen Programms in n Variablen mit m Restriktionen lautet
minimiere cT x,
so dass Ax = b
x ≥ 0,
wobei A eine m × n-Matrix, b ein Spaltenvektor mit m Einträgen und c ein Spaltenvektor mit n Einträgen ist.
Ein lineares Programm in Standardform überführt man in die kanonische Form
mittels Ersetzen der Gleichheit Ax = b durch Ax ≤ b und −Ax ≤ −b. Wir nehmen
meists an, dass die Koeffizientenmatrix vollen Zeilenrang hat, d.h. keine Restriktion
eine Linearkombination der übrigen und somit redundant bzw. nicht mit den übrigen
erfüllbar ist. Insbesondere gilt dann m ≤ n.
Def inition 13.3 (Zulässigkeitsbereich). Zum linearen Programm in Standardform
bezeichne
Zstd := {x ∈ Rn | Ax = b, x ≥ 0 }
die Menge aller zulässigen Lösungen, den Zulässigkeitsbereich. Im Fall Zstd = ∅ heißt
das Programm widersprüchlich. Die Menge aller optimalen, zulässigen Lösungen sei
Ω(c, Zstd ). Der Zielwert ist beschränkt, wenn
inf cT x x ∈ Zstd > −∞.
Sonst kann man den Zielwert beliebig reduzieren und erhält Ω(c, Zstd ) = ∅.
Der Zulässigkeitsbereich Zstd ist als Durchschnitt endlich vieler Halbräume ein
Polyhedron. Sofern der Zielwert des linearen Programms beschränkt ist, stellt die
Menge Ω(c, Zstd ) der optimale Lösungen ebenfalls ein Polyhedron dar, denn
Ω(c, Zstd ) = Zstd ∩ x ∈ Rn cT x ≥ copt
für copt := min cT x x ∈ Zstd . Falls Ω(c, Zstd ) mehr als eine optimale Lösung
enthält, sprechen wir von Mehrdeutigkeit.
Eine Lösung x ∈ Zstd ist eine Ecke des Zulässigkeitsbereichs bzw. des Polyhedrons Zstd , wenn kein y 6= 0 mit x ± y ∈ Zstd existiert. Die Menge der Ecken des
Zulässigkeitsbereichs bezeichnen wir mit E(Zstd ). Falls der Ursprung eine zulässige
Lösung ist, so stellt der Ursprung eine Ecke dar, denn für alle y 6= 0 sind 0 ± y nicht
gleichzeitig zulässige Lösungen, weil ±y ≥ 0 nicht gilt.
Lemma 13.4. Aus 0 ∈ Zstd folgt 0 ∈ E(Zstd ).
Falls x ∈ Zstd keine Ecke ist, gilt dann x 6= 0. Das Konzept einer Ecke ist grundlegend für die lineare Programmierung: Es existiert immer eine optimale Ecke, sofern
die Lösungsmenge Zstd nicht leer und der minimale Zielwert endlich ist.
156
13. Lineare Programmierung
Satz 13.5. Der Zulässigkeitsbereich Zstd sei nicht leer und der optimale Zielwert des
linearen Programms sei endlich. Dann enthält Ω(c, Zstd ) eine Ecke von Zstd , d.h. es
gibt eine Ecke des Zulässigkeitsbereichs, die optimal ist.
Beweis. Sei x ∈ Ω(c, Zstd ) eine optimale Lösung des linearen Programms. Es genügt,
eine Ecke p mit cT x ≥ cT p zu finden. Wir versuchen, in mehreren Schritten aus x eine
Ecke zu erhalten. Falls x eine Ecke ist, sind wir fertig. Sei x ≥ 0 keine Ecke, d.h. es
existiert ein y 6= 0 mit x ± y ∈ Zstd . Nach Lemma 13.4 gilt x 6= 0. Insbesondere ist
x ± y ≥ 0 sowie Ax + Ay = b und Ay = 0 wegen Ax = b. Durch einen möglichen
Übergang von y auf −y erreichen wir
cT y ≤ 0.
(33)
Falls cT y = 0, wähle y = (y1 , . . . , yn ) so, dass ein Eintrag yj < 0 existiert. Wir führen
eine Fallunterscheidung bezüglich des Vektors y durch:
a) Es gibt einen Eintrag j mit yj < 0. Wähle λ > 0 maximal mit x + λy ≥ 0.
Der Vektor
xneu := x + λy ≥ 0
hat im Vergleich zu x mindestens eine Null-Komponente mehr. Für xneu ∈
Zstd genügt der Nachweis von Axneu = b:
Axneu = A(x + λy) = Ax + λ · (Ay) = Ax = b.
| {z }
=0
b) Es gilt y ≥ 0 (und nach Wahl von y auch c 6= 0). Für jedes λ ≥ 0 ist
x + λy ∈ Zstd wegen
A(x + λy) = Ax + λ · (Ay) = Ax = b
| {z }
=0
cT y
und x+λy ≥ x ≥0. Falls
< 0ist, verstoßen wir gegen die Endlichkeitsbe
dingung von inf cT x x ∈ Zstd . Gemäß Voraussetzung (33) gilt cT y = 0.
Da nach Wahl y 6= 0 und c 6= 0 sind, muß y mindestens eine negative Komponente haben — Widerspruch zu Fall b).
Wiederhole den ersten Fall, bis wir eine Ecke erhalten. Da der neue Vektor im Vergleich zum Vorgängervektor eine Null-Komponente mehr hat, erhält man nach maximal n Iterationen eine Ecke.
Damit ist Satz 12.31 auf Seite 144 bewiesen, denn ein Polyhedra kann man als
Zulässigkeitsbereich eines linearen Programms auffassen. Aus Satz 13.5 folgt ferner
wegen Zstd = Ω(0, Zstd ):
Korollar 13.6. Der nicht leere Zulässigkeitsbereich Zstd hat eine Ecke.
Um eine optimale Lösung eines linearen Programms zu finden, genügt es nach
Satz 13.5 die (endlich vielen) Ecken des Zulässigkeitsbereichs zu untersuchen. Wir
haben Ecken bisher geometrisch beschrieben, im folgenden wollen wir eine algebraische Charakterisierung herleiten. Dazu identifizieren die Ecken x ∈ E(Zstd ) durch
Unterteilung von x1 , . . . , n in Basis- und Nichtbasis-Variablen. Für eine nicht leere
2. Ecken und Basislösungen
157
Indexmenge I ⊆ {1, 2, . . . , n} sei AI die Matrix bestehend aus den Spaltenvektoren
von A mit aufsteigend angeordneten Indizes in I und analog xI den Vektor bestehend
aus den entsprechenden Einträge des Vektors x.
Lemma 13.7. Sei x ∈ Zstd und I := {i | xi > 0 }. Genau dann gilt x ∈ E(Zstd ),
wenn I = ∅ oder die Spalten von AI linear unabhängig sind.
Beweis. Wir zeigen die negierte Äquivalenz: Der Punkt x ∈ Zstd ist genau dann
keine Ecke von Zstd , wenn I 6= ∅ und die Spalten von AI linear abhängig sind.
⇒“ AI habe linear abhängige Spalten, d.h. insbesondere ist I 6= ∅ und x 6= 0.
”
Dann existiert ein Vektor yI 6= 0 mit AI · yI = 0. Wir ergänzen yI durch
Null-Komponenten zu y ∈ Rn mit Ay = 0. Wähle λ > 0 mit x ± λy ≥ 0.
Dies ist wegen yi = xi = 0 für i ∈
/ I und xi > 0 für i ∈ I möglich. Aus
A(x ± λy) = Ax ± λ · (Ay) = Ax = b
| {z }
=0
erhalten wir x ± λy ∈ Zstd , so dass x ∈
/ E(Zstd ).
⇐“ Der Punkt x sei keine Ecke. Dann existiert nach Definition ein y 6= 0 mit
”
x ± y ∈ Zstd und es ist x 6= 0. Wegen
Ax + Ay = b
Ax − Ay = b
gilt Ay = 0. In Verbindung mit x±y ≥ 0 erhalten wir: Aus xi = 0 (äquivalent
i∈
/ I) folgt yi = 0. Sei yI der Vektor, der aus den Einträgen I von y besteht.
Nach vorheriger Überlegung und y 6= 0 ist yI 6= 0. Das heißt, dass
0 = Ay = AI · yI
und AI hat wegen yI 6= 0 linear abhängige Spalten.
Die Auswahl einiger Spalten der Koeffizientenmatrix A wie in Lemma 13.7 entspricht
einer Partition der Indizes {1, 2, . . . , n} in zwei Mengen:
Def inition 13.8 (Basis-Nichtbasis-Partition). Zum linearen Programm in Standardform heißt eine Partition (B, N ) von {1, 2, . . . , n} Basis-Nichtbasis-Partition, wenn
die Spaltenvektoren der Matrix von AB eine Basis des Rm bilden (insbesondere |B| =
m). Sie ist zulässig, wenn der Koordinatenvektor xB := A−1
B b von b bezüglich der
Spaltenvektoren von AB keine negativen Einträge hat. Die Variablen xi mit i ∈ B
nennt man Basis- und die mit i ∈ N Nichtbasisvariablen der Partition.
Jeder (zulässigen) Basis-Nichtbasis-Partition ordnen wir eine (zulässige) Lösung zu:
Def inition 13.9 (Basislösung). Zu einer Basis-Nichtbasis-Partition (B, N ) bezeichne Φ(B, N ) die zugehörige Basislösung x mit xB := A−1
B b und xN := 0. Wir nennen
den Zielwert der zugehörigen Basislösung
Φc (B, N ) := cT · Φ(B, N ) = cTB A−1
B b
den Zielwert der Basis-Nichtbasis-Partition (B, N ).
158
13. Lineare Programmierung
Im folgenden Satz stellen wir die Beziehung zwischen den Ecken des Zulässigkeitsbereichs und den zulässigen Basis-Nichtbasis-Partitionen dar. Zwar ist die Basislösung
einer zulässigen Basis-Nichtbasis-Partition eine Ecke, umgekehrt können aber einer
Ecke mehrere zulässige Basis-Nichtbasis-Partitionen zugeordnet werden.
Satz 13.10. Die m × n-Koeffizientenmatrix A habe vollen Zeilenrang m ≤ n. Dann
gilt:
a) Zur zulässigen Basis-Nichtbasis-Partition (B, N ) ist Φ(B, N ) ∈ E(Zstd ).
b) Jede Ecke x ∈ E(Zstd ) ist eine zulässige Basislösung zur Partition (B, N ),
ergänzt man {i | xi > 0 } gegebenenfalls durch Hinzunahme von Indizes weiterer, linear unabhängiger Spaltenvektoren zu B mit Mächtigkeit m.
Beweis. Für die erste Aussage beachte, dass für x := Φ(B, N ) nach Definition xB =
A−1
B b ≥ 0 und wegen xN = 0 insgesamt x ≥ 0 gilt. Aus
Ax = AB xB + AN xN = AB A−1
B b + AN 0 = b
folgt x ∈ Zstd . Da nach Definition rang AB = m, erhalten wir aus Lemma 13.7, dass
x eine Ecke der Lösungsmenge ist.
Zum Beweis der zweiten Behauptung sei x ∈ E(Zstd ) mit I := {i | xi > 0 }. Nach
Lemma 13.7 sind die Spaltenvektoren von AI linear unabhängig, so dass nach Voraussetzung |I| ≤ rang A = m ist. Im Fall |I| = m sei B := I, sonst ergänze I
durch Hinzunahme der Indizes weiterer, linear unabhängiger Spaltenvektoren zu B
mit Mächtigkeit m. Sei N = {1, 2, . . . , n} \ B. Wegen xB\I = 0 gilt:
AB xB = AI xI + AB\I xB\I = Ax = b.
Weil xB = A−1
B b ≥ 0, ist (B, N ) eine zulässige Basis-Nichtbasis-Partition.
Es ist möglich, dass einer Ecke verschiedene, zulässige Basis-Nichtbasis-Partitionen
zugeordnet werden können. In diesem Fall nennt man die Ecke und zugehörige BasisNichtbasis-Partitionen degeneriert:
Def inition 13.11 (Degeneration). Eine zulässige Basis-Nichtbasis-Partition (B, N )
und die zugehörige Basislösung x := Φc (B, N ) heißen degeneriert (entartet), wenn
xB Nulleinträge hat.
Eine Ecke des Zulässigkeitsbereichs ist degeneriert, wenn sie auf mehr als n − m
Seitenflächen {x ∈ Rn | xk = 0 }, nämlich k ∈ N und einer weiteren mit k ∈ B, liegt.
Nach Satz 13.10 finden wir den optimalen Zielwert, indem wir zu jeder BasisNichtbasis-Partition testet, ob diese zulässig ist und das Minimum der zugehörigen
Zielwerte ausgeben.
Dieser Ansatz ist aber nur für kleine n und m durchführbar, denn
n
n m
viele Basis-Nichtbasis-Partitionen. Beim Simplex-Algorithmus
es gibt m
≥ m
versucht man die Anzahl der betrachteten Basis-Nichtbasis-Partitionen zu reduzieren,
indem nur Partitionen in Betracht gezogen werden, deren der Zielwert mindestens das
bisher erreichte Niveau hat.
3. Simplex-Algorithmus
159
3. Simplex-Algorithmus
Dantzig hatte im Rahmen der Forschung der US-Luftwaffe lineare Programme zur
Planung der Logistik und Produktion im Kriegsfall formuliert und hoffte vergebens,
dass man in der Wirtschaftmathematik mechanische Methoden zur linearen Programmierung kannte. Während des Sommers 1947 entwickelte er den Simplex-Algorithmus.
Als erste, öffentliche Publikation gilt Dantzigs Text [Dantzig51]. Die Bezeichnung
Simplex-Algorithmus“ geht auf Dantzigs ursprüngliche Voraussetzung zurück, dass
”
die Lösungsmenge ein Simplex sei. Das Simplex-Verfahren funktioniert auch bei Degeneration, sofern bei der Pivot-Wahl sichergestellt ist, nicht in eine Endlosschleife
zu geraten.
Die grundlegende Idee der Simplex-Methode ist, beginnend von einer Ecke des
Zulässigkeitsbereichs iterativ zu benachbarten Ecken zu gehen, bis eine optimale
Ecke erreicht wird. In der Praxis bildet der Ursprung meist die Ausgangsecke, im
anderen Fall können wir in einer ersten Phase mittels Simplex-Algorithmus eine
Ecke der Lösungsmenge bestimmen. Nach Korollar 13.6 auf Seite 156 existiert eine Ausgangsecke, sofern die Restriktionen nicht widersprüchlich sind. Wir setzen
zunächst voraus, dass eine zulässige Basis-Nichtbasis-Partition (B, N ) und zugehörige
Basislösung (Ecke) bekannt sind, und untersuchen die folgenden Punkte:
• Wie erhält man die Basis-Nichtbasis-Partition bzw. Basislösung einer benachbarten Ecke mit niedrigerem Zielwert und wie entscheidet man sich bei
mehreren Alternativen?
• Wie ist eine optimale Ecke zu erkennen?
• Unter welchen Bedingungen terminiert dieses Verfahren?
Zur Basis-Nichtbasis-Partition (B, N ) kann man das lineare Programm schreiben als:
minimiere cT x, so dass AB xB + AN xN
xB , xN
=b
≥ 0.
Nur die Variablen xN sind unabhängig, xB erhalten wir gemäß
xB (xN ) := A−1
B (b − AN xN ) .
(34)
Die Objektfunktion lautet:
cT x = cTB xB (xN ) + cTN xN
T
= cTB A−1
B (b − AN xN ) + cN xN
T
T −1
= cTB A−1
B b + cN − cB AB AN xN .
| {z } |
{z
}
=Φc (B,N )
:=sT
N
Wir haben die Zielfunktion relativ zu einer Basis-Nichtbasis-Partition (B, N ) umgeformt. Der Wert Φc (B, N ) ist der Zielwert an der Stelle Φ(B, N ).
Def inition 13.12 (Relative Zielfunktion). Zu einer zulässigen Basis-Nichtbasis-Partition
(B, N ) heißt die Funktion Φc (B, N ) + sT x mit sB := 0 und sTN := cTN − cTB A−1
B AN die
relative Zielfunktion.
160
13. Lineare Programmierung
Beachte, Φc (B, N ) hängt nur von der Basis-Nichtbasis-Partition (B, N ) und der
zugehörigen Basislösung, jedoch nicht von der Variablen x ab. Die relative Zielfunktion gibt an, wie sich der Zielwert verhält, ändern wir den Wert von Nichtbasisvariablen. Angelehnt an die ökonomische Interpretation im Fall einer Minimierungsaufgabe
heißen die Koeffizienten s Schattenpreise, die (informell formuliert) angeben, was es
kostet, eine Nichtbasisvariable xj um eine Einheit zu erhöhen.2 Durch die Schattenpreise erhalten wir ein Optimalitätskriterium für die Basislösung:
Satz 13.13 (Optimalitätskriterium). Die Basislösung bzw. die Ecke zur zulässigen
Basis-Nichtbasis-Partition (B, N ) ist genau dann optimal, wenn für die relative Zielfunktion der Vektor sN ≥ 0 ist, d.h. alle Schattenpreise nicht-negativ sind.
Beweis. Wegen cT x = Φc (B, N ) + sTN xN und der Forderung xN ≥ 0 für alle zulässigen Lösungen x ∈ Zstd können wir den Zielwert nur reduzieren, falls mindestens ein
Eintrag in sN negativ ist.
Sei xi eine Nichtbasisvariable, also i ∈ N , mit negativem Schattenpreis si . Wir
wollen i in die Basis B aufnehmen und werden dafür einen Index j aus B entfernen.
Die Variable xi der Basislösung zur Partition (B, N ) hat als Nichtbasisvariable den
Wert 0. Um diese auf λ ≥ 0 zu setzen, muß man die Werte der Variablen xB gemäß
Gleichung (34) ändern:
−1
xB (xN (λ)) := A−1
B (b − λAei ) = AB (b − λAi ) .
(35)
Sei x(λ) die neue Lösung in Abhängigkeit in λ. Wegen (35) gilt:
Ax(λ) = AB · xB (xN (λ)) + AN xN (λ) = AB A−1
B (b − λAi ) + λAi = b.
Der Zielwert c(λ) ist
cT x(λ) = Φc (B, N ) + sTN xN (λ) = Φc (B, N ) + si λ.
Aufgrund si < 0 nimmt der Zielwert mit wachsendem λ ab. Wir wählen das maximale
λ ≥ 0 mit x(λ) ∈ Zstd . Wegen xN (λ) ≥ 0 und Ax(λ) = b suchen wir das größte λ ≥ 0
mit xB (xN (λ)) ≥ 0. Zu
λsup := sup {λ ∈ R≥0 | x(λ) ≥ 0 }
unterscheide drei Situationen:
• Im Fall λsup = +∞ können wir den Zielwert beliebig verkleinern, der Zielwert
ist unbeschränkt und das Verfahren stoppt.
• Im Fall 0 < λsup < +∞ existiert ein j, so dass xj (0) > 0 und xj (λsup ) = 0
ist, denn für x(0) = 0 muß λsup = 0 sein. Wir tauschen j ∈ B und i ∈ N für
die neue Basis-Nichtbasis-Partition (B neu , N neu ) aus. Die neue Basislösung
ist x(λsup ), der Zielwert sinkt auf c(λsup ).
Zu zeigen bleibt, dass für die neue Basis-Nichtbasis-Partition die Matrix AB neu vollen Rang hat. Wir wollen zeigen, dass der Übergang von den
Spaltenvektoren AB auf AB neu eine Basistransformation ist. Angenommen,
der neue Vektor Ai sei eine Linearkombination der Spaltenvektoren AB\{j} ,
2Diese Interpretation der Koeffizienten der relativen Zielfunktion stammt aus der klassischen
Sensitivitätsanalyse. Im Fall von Degeneration muß diese Interpretation nicht korrekt sein.
3. Simplex-Algorithmus
161
d.h. es gäbe einen Koeffizientenvektor u mit uj = 0 und AB uB = Ai . Dann
ist der Eintrag j des Vektors λsup A−1
B Ai = λsup uB gleich 0. Aus
−1
xB (λsup ) = A−1
B b − λsup AB Ai
| {z }
| {z
} | {z }
j-tes Bit Null
=xB (0)
j-tes Bit Null
folgt, dass xj (0) = 0 — Widerspruch zur Wahl von j.
• Im Fall λsup = 0 ist die Ecke degeneriert: Es gibt einen Index k ∈ B, so dass
der Eintrag k in xB = A−1
B b Null ist (also die Basisvariable xk den Wert 0
hat), die Komponente k in A−1
B Ai hingegen nicht. Wähle den Index j des
Spaltenvektors aus der Menge {k ∈ B | xk = 0 } so, dass die Spaltenvektoren von A{i}∪B\{j} linear unabhängig sind. Mit der neuen Basis-NichtbasisPartition ist die gleiche Basislösung verbunden und insbesondere vermindern
wir den Zielwert nicht.
Falls der Zulässigkeitsbereich Zstd keine degenerierte Ecke hat, finden wir nach endlich vielen Iterationen eine optimale Ecke oder bemerken, dass das lineare Programm
unbeschränkt ist. Bevor wir genauer auf die Wahl eingehen, welche Variable aus der
Basis entfernt und welche hinzugenommen wird, zeigen wir, dass der zuvor beschriebene Übergang zu einer anderen Ecke des Zulässigkeitsbereichs anschaulich bedeutet,
dass man sich entlang der Menge
{x(λ) | 0 ≤ λ ≤ λsup } ,
einer Kante3 des Polyhedrons, bewegt und umgekehrt auch alle benachbarten Ecken
betrachtet. Zwei Ecken p, p0 heißen benachbart, wenn [p, p0 ] eine Kante ist. Wir sagen,
zwei zulässige Basis-Nichtbasis-Partitionen (B, N ) und (B 0 , N 0 ) sind benachbart, wenn
|B \ B 0 | = 1, d.h. die beiden Partitionen sind durch Austausch einer Basis- gegen eine
Nichtbasis-Variable ineinander überführbar. In Übungsaufgabe 17.1 zeigen wir:
Satz 13.14. Für den Zulässigkeitsbereich Zstd gilt:
a) Zwei Ecken p, p0 ∈ E(Zstd ), p 6= p0 , sind genau dann benachbart, d.h. [p, p0 ] ist
eine Kante von Zstd , wenn zulässige, benachbarte Basis-Nichtbasis-Partitionen
(B, N ), (B 0 , N 0 ) mit p = Φ(B, N ) und p0 = Φ(B 0 , N 0 ) existieren.
b) Falls für zwei zulässige, benachbarte Basis-Nichtbasis-Partitionen (B, N ) und
(B 0 , N 0 ) die Basislösungen Φ(B, N ) und Φ(B 0 , N 0 ) nicht benachbart sind, gilt
Φ(B, N ) = Φ(B 0 , N 0 ) und die Ecke ist degeneriert.
In jeder Iteration nehmen wir eine Variable xi in die Basis auf und eine Variable xj
heraus. Die Entscheidung für ein Index-Paar (i, j) ∈ N × B heißt Pivot-Wahl. Für die
von Wahl (i, j) gibt es sogenannte Pivot-Regeln, weil zumeist mehrere Alternativen
existieren. Dantzig [Dantzig51] hat ursprünglich zwei Regeln vorgeschlagen:
Nonbasic-Gradient-Methode: Wähle i ∈ N mit minimalem Schattenpreis
si < 0.
Best-Improvement-Regel: Wähle i ∈ N mit der maximal möglichen Abnahme des Zielwertes.
3[p, p0 ] ist eine Kante, wenn zu keinem Punkt x ∈ [p, p0 ] ein y 6= 0 mit (p−p0 ) ⊥ y und x±y ∈ Z
std
existiert.
162
13. Lineare Programmierung
Diese Richtlinien stellen neben der formalen Anforderungen keine Bedingungen an
die Wahl von j ∈ B, d.h. welche Variable aus der Basis genommen werden soll. Bei
beiden Regeln besteht die Gefahr des Cyclings (Kreisens). Wir haben in Satz 13.14
gesehen, dass im Fall einer degenerierten Ecke mehrere Basis-Nichtbasis-Partitionen
zur gleichen Basislösung existieren. Bei beiden Pivot-Regeln ist es möglich, dass wir
nach einigen Iterationen wieder die Ausgangspartition erreichen, ohne die Ecke zu
verlassen. Der interessierte Leser findet ein Beispiel bestehend aus 3 Gleichungen
und sieben Variablen, bei dem man nach sechs Schritten wieder die Ausgangspartition erreicht, in [Dantzig66, V97]. Die heute geläufigste Pivot-Regel, die Cycling
verhindert, geht auf Bland [Bland77] zurück:
Blands Pivot-Regel: Nimm xi mit minimalem i ∈ {k ∈ N | sk < 0 } in die
Basis auf und entferne xj mit minimalem j ∈ {k ∈ B | xk (λsup ) = 0 }.
Für Blands Pivot-Regel ist gewährleistet, dass der Simplex-Algorithmus stets terminiert [V97, PS82]:
Fakt 13.15. Mit Blands Pivot-Regel tritt kein Cycling auf.
Beim Simplex-Algorithmus 1 auf Seite 163 setzen wir in Schritt 1 voraus, dass
zu Beginn eine zulässige Basis-Nicht-Basispartition (B, N ) respektive eine zulässige
Basislösung x bekannt ist. Falls das Programm in kanonischer Form, also
minimiere cT x, so dass Ax ≤ b
x ≥ 0,
gegeben ist, führen wir Slack-Variablen r ein, so dass neben den Nichtnegativitätsbedingungen x, r ≥ 0 die Restriktionen
x
A Im
=b
r
lauten. Die letzten m Spalten, die Einheitsvektoren, sind offenbar linear unabhängig.
Für b ≥ 0, erhalten wir mit x = 0 und r = b eine zulässige Basislösung und entsprechend eine zulässige Basis-Nichtbasis-Partition.
Falls bei der kanonischen Form b negative Einträge hat oder das lineare Programm
in Standardform mit Ax = b vorliegt, ist eine zulässige Basislösung nicht immer offensichtlich. Wenngleich in der Praxis meist der Ursprung eine Ecke des Zulässigkeitsbereichs darstellt, ist die Bestimmung einer Ecke in Schritt 1 des Simplex-Algorithmus’
im allgemeinen nicht trivial. Man kann sogar zeigen, dass das Finden einer beliebigen
Lösung zu einem linearen Ungleichungssystem äquivalent zur linearen Programmierung ist. Ein Ansatz ist der sogenannte Zwei-Phasen-Simplex-Algorithmus. Wir erweitern das Programm durch Einführen neuer Variablen t und minimieren die Summe
der neuen Variablen:
P
minimiere m
i=1 ti , so dass Ax + t = b
x, t ≥ 0.
Falls der optimale Zielwert ungleich 0 ist, gilt Ax 6= b für alle x ≥ 0 und das ursprüngliche lineare Programm hat keine zulässige Basislösung. Im anderen Fall ist
t = 0 für jede optimale Lösung (x, t), also Ax = b. Wir setzen wegen t = 0 voraus,
dass die Variablen t Nichtbasis-Variablen sind. Aus der Basis-Nichtbasis-Partition
3. Simplex-Algorithmus
163
Abbildung 1. Simplex-Algorithmus mit Blands Pivot-Regel
Eingabe: Lineares Programm in Standardform
(1) Wähle zulässige Basis-Nichtbasis-Partition (B, N ).
(2) Berechne zur Basis-Nichtbasis-Partition aktuellen Zielwert
Φc (B, N ) und Schattenpreise sN .
(3) IF sN ≥ 0 THEN stoppe mit Ausgabe Φ(B, N ).
(4) Wähle i := min {k ∈ N | sk < 0 }.
(5) λsup := sup {λ ∈ R≥0 | x(λ) ≥ 0 } mit xB (λ) = A−1
B (b − λAi ).
(6) Fallunterscheidung:
• λsup = +∞: Stoppe, Zielwert ist unbeschränkt.
• λsup < +∞: Setze j := min {k ∈ B | xk (λsup ) = 0 }.
(7) B := {i} ∪ B \ {j}, N := {1, 2, . . . , n} \ B
(8) GOTO 2
(B, N ) erhält man eine zulässige Basislösung für das ursprüngliche Programm durch
Entfernen der Indizes für t aus N . Haben wir im ersten Schritt eine zulässige Basislösung bzw. Basis-Nichtbasis-Partition mit dem Simplex-Algorithmus bestimmt
oder das Programm als widersprüchlich erkannt, ist nun das eigentliche Programm
mit dem Simplex-Verfahren 1 zu lösen. Man nennt dieses zweistufige Verfahren ZweiPhasen-Simplex-Algorithmus, da das Programm in zwei getrennten Phasen gelöst
wird.
Ein Nachteil der Zwei-Phasen-Methode ist, dass beide Stufen separat arbeiten,
insbesondere wählen wir die in der ersten Phase gefundene Basis-Nichtbasis-Partition
unabhängig von der Zielfunktion cT x. Eine Möglichkeit, beide Phasen zu kombinieren,
bildet die Big-M-Methode. Zu einem Programm in Standardform führe m zusätzliche
Variablen t ein und löse
x
Pm
T
minimiere c x + M i=1 ti , so dass A Im
=b
t
x, t ≥ 0
mit einer hinreichend großen Konstanten M . Mit der Konstanten M erreichen wir,
dass für alle optimalen Lösungen (x, t) gilt t = 0 und x eine optimale Lösung des
ursprünglichen Programms ist.
n
Es gibt maximal m
zulässige Basis-Nichtbasis-Partitionen, die Anzahl der Iterationen von Algorithmus 1 ist durch 2n beschränkt. Berechnen der Inversen A−1
B ,
Lösen des linearen Gleichungssystems AB xB = b sowie die übrigen Aufgaben in jeder
Iteration gelingen jeweils in O(n3 ) Schritten.
Satz 13.16. Zu einem linearen Programm in n Variablen mit m ≤ n Restriktionen
liefert der Simplex-Algorithmus 1 in O(n3 2n ) Schritten entweder eine optimale Ecke
oder erkennt, dass das Programm widersprüchlich bzw. unbeschränkt ist.
164
13. Lineare Programmierung
Der Satz 13.16 liefert nur eine exponentielle Laufzeitschranke für den SimplexAlgorithmus. Für die Analyse haben wir die Anzahl der betrachteten Basis-NichtbasisPartitionen durch die Anzahl aller möglichen Partitionen nach oben beschränkt.
Klee und Minty [KM72, S86] haben 1972 ein lineares Programm in 2n Variablen
und n Restriktionen angeben, für das die Simplex-Methode mit Dantzigs NonbasicGradient-Pivotregel 2n −1 Iterationen benötigt. Dieses negative Resultat wurde in den
Folgejahren auf die anderen, bekannten Pivotregeln übertragen, Avis und Chvátal
[AC78] zeigten die exponentielle Schranke für Blands Pivotregel. Wenngleich der ursprüngliche Simplex-Algorithmus kein Polynomialzeit-Verfahren darstellt, ist es bis
heute ein offenes Problem, ob eine (deterministische oder randomisierte) Pivotregel existiert, für welche die Anzahl der Iterationen polynomiell ist, d.h. man beweisen kann, dass der Simplex-Algorithmus jedes lineare Programm effizient löst. Diese
Worst-Case-Laufzeit steht im Widerspruch zur Praxis. In Dantzigs Buch [Dantzig66]
schreibt der Erfinder der Simplex-Methode, dass in den zahlreichen Beispielen aus der
Praxis die Anzahl der Iterationen für ein lineares Programm in kanonischer Form mit
m Restriktionen und n Variablen im Bereich von 2m bis 3m liegt.
Mit Khachiyans Ellipsoid-Methode [Kh79] kennt man zwar bereits seit 1979
einen Polynomialzeit-Algorithmus4 für die lineare Programmierung, allerdings ist das
Verfahren nicht praktikabel. Basierend auf einer Arbeit von Karmakar [Ka84] wurden Ende der Achtziger Jahren Interior-Point-Methoden entwickelt [V97]. Diese lösen
lineare Programme in Polynomialzeit und sind für große Programme mit mehr als
1000 Variablen eine Alternative zum Simplex-Algorithmus.
Für die Variante des Simplex-Algorithmus’ mit der sogenannten SchatteneckenPivotregel von Borgwardt (1988) ist die Laufzeit für zufällige (nach einer bestimmten Verteilung) verteilte A, b, c im Durchschnitt durch ein Polynom in der Variablenanzahl n und der Anzahl Restriktionen m beschränkt. Es ist jedoch ein offenes
Problem, ob für die lineare Programmierung ein starker Polynomialzeit-Algorithmus,
d.h. die Laufzeit ist durch ein Polynom in n und m beschränkt und hängt insbesondere nicht von der Eingabelänge ab, existiert. Es ist ebenso ungeklärt, ob die Distanz
zwischen zwei Ecken e1 , e2 der Lösungsmenge (d.h. die Anzahl der Kanten auf dem
Kantenzug von e1 nach e2 ) durch ein Polynom in n und m beschränkt ist, also eine
Pivotregel existieren kann, für die das Simplex-Verfahren ein starker PolynomialzeitAlgorithmus ist.
4. Simplex-Tableau
Für die Rechnung per Hand ist die Simplex-Methode in Form von Algorithmus 1
(Seite 163) ungeeignet: In jeder Iteration lösen wir ein lineares Gleichungssystems
bzw. bestimmen eine inverse Matrix und gehen die Halbgerade x(λ) bis zu einer Ecke
entlang, um die Indizes für den Basiswechsel zu ermitteln. Zum Lösen eines linearen Programms per Hand haben sich Simplex-Tableaus etabliert, die eine alternative
Darstellung des Simplex-Algorithmus’ liefern. Für die Simplex-Tableaus führe eine
neue Variable −z und als weitere Restriktion cT x − z = 0 ein. Das Ziel ist, den Wert
von −z zu maximieren. Fixiere −z als Basisvariable, d.h. beachte diese Variable bei
4Die Laufzeit ist durch ein Polynom in der Bitlänge der ganzzahligen Eingabe A, b, c beschränkt.
4. Simplex-Tableau
165
der Pivot-Auswahl nicht. Das Tableau hat folgenden Aufbau:
−z
x
0
A
b
1
cT
0
Sei (B, N ) eine zulässige Basis-Nichtbasis-Partition. Um die Basislösung unmittelbar
aus dem Simplex-Tableau abzulesen, überführen wir durch elementare Zeilenoperationen das Gleichungssystem Ax = b in ein äquivalentes System A0 x = b0 mit A0B = Im ,
so dass für die Basislösung x := Φ(B, N ) gilt xB = b0 und xN = 0. Das Tableau hat
schematisch folgenden Aufbau:
−z
xN
xB
0
A0N
Im b0
1
cTN
cTB
0
In der letzten Zeile soll die relative Zielfunktion steht. Durch elementare Zeilenoperationen löschen wir die Einträge der Basisvariablen in der letzten Zeile, d.h. wir
subtrahieren die i-te Zeile ci -mal von der letzten Zeile. Wegen xB = b0 ist der Eintrag
in Feld rechts unten −cTB xB = −Φc (B, N ). Die xB -Einträge der letzten Zeile sind
Null und, da A0B = Im , entsprechen die xN -Einträge den Schattenpreisen
cTN − cTB A0N = sN
bezüglich der Basis-Nichtbasis-Partition (B, N ), so dass das Simplex-Tableau zur
Basis-Nichtbasis-Partition (B, N ) schematisch wie folgt aussieht:
−z
xN
xB
0
A0N
Im
1
sTN
b0
sTB = 0 −Φc (B, N )
Zusammenfassend: Wir erhalten die Basislösung und die relative Zielfunktion (die
Schattenpreise) zu einer gegebenen Basis-Nichtbasis-Partition (B, N ), indem man
mittels elementarer Zeilenoperationen in den Spalten zu xB die Einheitsvektoren
e1 , . . . , em erzeugt. Der negierte Zielwert steht rechts unten. Unser Ziel ist es, den
Wert im Feld rechts unten zu maximieren.
Zu klären ist, wie man die Pivotwahl (i, j) ∈ N ×B nach Blands Regel im SimplexTableau vornimmt. Die Wahl i ∈ N , d.h. welche Variable xi in die Basis genommen
wird, treffen wir anhand der Schattenpreise in der letzten Zeile: Wähle das minimale
i ∈ N mit si < 0. Um j ∈ B zu bestimmen, betrachte zum Skalar λ ≥ 0 den Ausdruck
xB (λ) = (A0B )−1 b0 − λA0 ei = b0 − λA0i
aus Definition 35 auf Seite 160, berechne λsup := sup {λ ∈ R≥0 | x(λ) ≥ 0 } und wähle
j := min {k ∈ B | xk (λsup ) = 0 } .
166
13. Lineare Programmierung
Für λsup bestimmen wir λsup (k) := sup {µ ∈ R≥0 | b0k − µ · A0ik ≥ 0 } für 1 ≤ k ≤ m,
also
( b0
k
falls A0ik 6= 0
0
λsup (k) := Aik
+∞ sonst.
und setzen λsup gleich dem Minimum aller λsup (k) ≥ 0. Bezogen auf das Tableau
besagt Blands Pivotregel:
(1) Wähle die erste Spalte i mit dem kleinsten, negativen Schattenpreis (Pivotspalte).
(2) Wähle die oberste Zeile j mit λsup (j) = λsup (Pivotzeile). Um λsup zu ermitteln, dividiere in jeder Zeile k die rechte Seite b0k durch den Koeffizienten
A0ik in der Pivotspalte, sofern dieser ungleich Null ist, und bestimmte den
kleinsten, nicht-negativen Quotienten.
(3) Erzeuge durch elementare Zeilenoperationen in der Pivotspalte i den kanonischen Einheitsvektor ej .
Abbildung 2. Zulässigkeitsbereich des Beispiel-Programms
x2
III
6
5
4
3
2
1
0
p p p pp ppp
ppp pppp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppp p
p
p
p
p
p
p
p p p pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp p
ppp ppp pppp pppp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp pp
p
p
p
p
p p pp pp pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp p II
ppp pppp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp
ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp
ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp
ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp
ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp
ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp
ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp
ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp
ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp
ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp I
- x1
1
2
3
4
5
Wir demonstrieren Simplex-Tableaus und das Rechnen mit ihnen anhand eines
einfachen Beispieles. Minimiere −x1 − x2 unter den Restriktionen x1 , x2 ≥ 0 und
2x1 ≤ 10
−3x1 + 6x2 ≤ 18
2x1 + x2 ≤ 13.
Abbildung 2 zeigt den Zulässigkeitsbereich im R2 . In Matrixschreibweise und mit
Slackvariablen lauten die Restriktionen:
 
x1
 


x2 
10
2 0 1 0 0
 
−3 6 0 1 0 · x3  = 18 .
 
x4 
13
2 1 0 0 1
x5
4. Simplex-Tableau
167
Ergänze drei Slackvariablen x3 , x4 , x5 , die aktuellen Basisvariablen werden durch Fettdruck gekennzeichnet (In leeren Feldern steht jeweils eine Null):
−z
1
x1 x2 x3 x4 x5
2
1
10
−3 6
1
18
2
1
1 13
−1 −1
0
Aus dem Tableau erhalten wir als Basislösung x = (0, 0, 10, 18, 13) mit Zielwert 0
und Schattenpreisen (−1, −1, 0, 0, 0). In Abbildung 2 entspricht dies dem Nullpunkt.
Blands Regel folgend wähle x1 als neu in die Basis zu nehmende Variable, denn der
minimale Schattenpreis ist s1 = s2 = −1 und wir entscheiden uns für den kleinsten
Index i ∈ {1, 2}. Wegen
λsup (1) =
10
2
=5
λsup (2) =
18
−3
= −6
λsup (3) =
13
2
= 6, 5
ist λsup = λsup (1) und wir nehmen x3 aus der Basis, da in der ersten Zeile die Basiseins
von x3 steht.
−z
s
1
x1 x2 x3 x4 x5
2
1
10
−3 6
1
18
2
1
1 13
−1 −1
0
•
λsup (k)
10/2 = 5 •
18/ − 3 = −6
13/2 = 6, 5
Multipliziere die erste Zeile mit 12 und addiere Vielfache zu den übrigen Zeilen, damit
in der x1 -Spalte der erste Einheitsvektor e1 steht:
−z x1
1
1
x2
x3 x4 x5
0, 5
5
6 1, 5 1
33
1 −1
1 3
−1 0, 5
5
Aus dem Tableau erhalten wir als Basislösung x = (5, 0, 0, 33, 3) mit Zielwert −5
und Schattenpreisen (0, −1, 12 , 0, 0). In Abbildung 2 entspricht dies dem Punkt I. Im
nächsten Schritt nimm x2 in die Basis auf. Wegen
λsup (1) = +∞
λsup (2) =
33
6
= 5, 5
ist λsup = λsup (3) und wir entfernen x5 aus der Basis:
−z x1 x2
1
1
1
x3
x4 x5
0, 5
5
7, 5
1 −6 15
−1
1
3
−0, 5
1
8
λsup (3) =
3
1
=3
168
13. Lineare Programmierung
Aus dem Tableau erhalten wir als Basislösung x = (5, 3, 0, 15, 0) mit Zielwert −8 und
Schattenpreisen (0, 0, − 12 , 0, −1). In Abbildung 2 entspricht dies dem Punkt II. Im
letzten Schritt nimm x3 in die Basis auf. Wegen
λsup (1) =
5
0,5
= 10
λsup (2) =
15
7,5
=2
λsup (3) =
3
−1
= −3
ist λsup = λsup (2) und wir entfernen x4 aus der Basis:
−z x1 x2 x3
x4
x5
1
−0, 06 0, 4
1
0, 13 −0, 8
1
0, 13
0, 2
1
0, 06
0, 6
4
2
5
9
Die erreichte Lösung ist optimal, da alle Schattenpreise der Nichtbasisvariablen positiv
sind. Der optimale Wert ist x = (4, 5, 2, 0, 0) bzw. Punkt III in Abbildung 2. Der
optimale Zielwert ist −9.
Es exisitiert ebenfalls eine Kurzform der Simplex-Tableaus, wie sie zum Beispiel in
[Fischer92] verwendet wird. Die Koeffizientenvektoren der geordneten Basisvariablen
haben stets die Form einer Einheitsmatrix und die zugehörigen Schattenpreise sind
Null, so dass die Angaben im Simplex-Tableau redundant sind. In der Kurzform
schreibt man die Basisvariablen links und läßt die zugehörigen Spalten weg, der Wert
rechts ist der Wert der Basisvariablen. Das Ausgangstableau des zuvor behandelten
Programms lautet in dieser Form:
x1 x2
x3 2
10
x4 −3 6 18
x5 2
1 13
−z 1
1 0
Aus den Regeln für das Rechnen im erweitertern Simplex-Tableau lassen sich die
Regeln für die Kurzform herleiten. Diese sind aber komplizierter und anfälliger für
Rechenfehler gegenüber des erweiterten Tableaus.
Zum Abschluß wollen wir noch die Fälle von Degeneration und Mehrdeutigkeit
im allgemeinen Simplex-Tableau betrachten. Eine Basislösung bzw. die zugehörige
Basis-Nichtbasis-Partition ist degeneriert, wenn ein i ∈ B mit xi = 0 existiert, also
eine Basisvariable xi = 0 ist. Da die Werte der Basisvariablen in der Spalte rechts
stehen, bedeutet eine Null in diesen Feldern, dass die aktuelle Basislösung degeneriert
ist. Zum Beispiel beschreibt das folgende Tableau eine degenerierte Ecke, denn die
Basisvariable x2 ist gleich 0:
−z x1 x2 x3 x4 x5
1
9 3
2 8 1
1 7 1
1
3 1
4
2
0
6
Im Fall von Mehrdeutigkeit gibt es mindestens zwei optimale Ecken. Wenn wir eine
optimale Lösung gefunden haben, sind alle Schattenpreise der relativen Zielfunktion
5. Dualität
169
größer oder gleich 0. Um zu einer Ecke mit gleichem Zielwert zu gelangen, kommen nur
Nichtbasis-Variablen mit Schattenpreis Null in Frage, denn in diesem Fall addieren
wir kein Vielfaches zur relativen Zielfunktion, um den entsprechenden Eintrag zu
löschen. Zum Beispiel beschreibt das folgende Tableau eine optimale Ecke im Fall
von Mehrdeutigkeit:
−z x1 x2 x3 x4 x5
1
2 8
1 3 1
1 3 9
−1
3 0
4
2
8
6
Wir ersetzen die Basisvariable x5 durch x3 , das neue Simplex-Tableau hat folgende
Form:
−z x1 x2 x3 x4 x5
1
2 −2 0
1 3
1 2
1
0 −3 2
1
0 3
6
Diese ebenfalls optimale Ecke ist wegen x1 = 0 ferner degeneriert. Man erkennt Mehrdeutigkeit im Simplex-Tableau, wenn für eine optimale Lösung (d.h. kein Schattenpreis ist negativ) der Schattenpreis einer Nichtbasis-Variablen auch verschwindet und
diese Variable in der Basis aufgenommen werden kann.
5. Dualität
In einer Unterhaltung mit Dantzig hatte John von Neumann 1947 die grundlegenden Begriffe der Dualität in der linearen Programmierung eingeführt. Er ordnete
einem linearen Programm (primales Programm)
LP
minimiere cT x, so dass Ax ≥ b
x ≥ 0,
ein duales Programm zu, wobei beide optimalen Werte übereinstimmen, sofern das
primale Programm weder unbeschränkt noch widersprüchlich ist.
Def inition 13.17 (Duales Programm). Das duale lineare Programm zu einem linearen Programm in kanonische Form lautet:
LP*
maximiere bT y,
so dass AT y ≤ c
y ≥ 0.
Während das primale Programm eine Mimimierungsaufgabe ist, soll beim dualen
Programm die Zielfunktion maximiert werden. Offenbar ist das duale Programm des
dualen Programms das primale Ausgangsprogramm. Wir bezeichnen mit Z und Z ∗
die Zulässigkeitsbereiche des primalen und des dualen Programms in kanonischer
Form. Unser Ziel ist zu zeigen, dass der Zielwert von primalen und dualem Programm
(sofert ein Programm beschränkt und das Restriktionssystem nicht widersprüchlich
ist) übereinstimmen.
170
13. Lineare Programmierung
Lemma 13.18 (Schwache Dualität). Für x ∈ Z und y ∈ Z ∗ gilt bT y ≤ cT x.
Beweis. Wegen Ax ≥ b und y ≥ 0 gilt bT y ≤ (Ax)T y = xT AT y. In Verbindung mit
AT y ≤ c und y ≥ 0 erhalten wir
bT y ≤ xT (AT y) ≤ xT c
und mit xT c = cT x folgt die Behauptung.
Sofern die Zulässigkeitsbereiche
leer sind, liefert jede duale Lösung y ∈ Z ∗ eine
T nicht untere Schanke für min c x x∈ Z und jede primale Lösung x ∈ Z eine obere
Schranke für max bT y y ∈ Z ∗ . Aus der schwachen Dualität folgt für das primale
und zugehöriges duales Programm:
• Falls eines der Programme unbeschränkt ist, sind die Restriktionen des anderen Programms widersprüchlich.
• Im Fall eines widersprüchlichen Programms ist das andere entweder ebenfalls
widerspüchlich oder der Zielwert ist unbeschänkt (Es gibt Beispiele für beide
Fälle).
Aus der schwachen Dualität erhalten wir ein Optimalitätskriterium: Eine primale
Lösung x ∈ Z ist optimal, wenn eine duale Lösung y ∈ Z ∗ mit bT y = cT x existiert.
Die Umkehrung dieser Aussage ist die sogenannte starke Dualität:
Satz 13.19 (Dualität). Falls die Restriktionssysteme des primalen Programms LP in
kanonischer Form und des zugehörigen dualen Programm LP* nicht widerspüchlich
sind, stimmen beide, optimalen Zielwerte überein.
Beweis. Wegen der schwachen Dualität, Lemma 13.18, genügt zu zeigen, dass x ∈ Z
und y ∈ Z ∗ mit cT x ≤ bT y existieren. Aus der Variante von Farkas’ Lemma in
Korollar 12.43 auf Seite 149 folgt, dass für beliebiges c0 ∈ R die nachstehenden
Aussagen äquivalent sind:5
a) Es existiert ein x ≥ 0 und Ax ≥ b mit cT x ≤ c0 .
−A
−b
b) Es existiert ein x ≥ 0 mit
x≤
.
T
c
c0
−A
y
T
λ
c) Für alle
≥ 0 mit y
≥ 0 gilt −bT
λ
cT
c0
y
·
≥ 0.
λ
d) Für alle y ≥ 0 und λ ≥ 0 mit AT y ≤ λc gilt λc0 ≥ bT y.
e) Für alle y ≥ 0 mit AT y ≤ c gilt c0 ≥ bT y.
Angenommen, für alle y ∈ Z ∗ gilt bT y ≤ c0 < min cT x x ∈ Z für ein geeignetes
c0 . Dann existiert eine primale Lösung x ∈ Z mit cT x ≤ c0 im Widerspruch zur Wahl
von c0 kleiner als der optimale, primale Zielwert.
5Für den Beweis der Implikation d)⇒e)“ wähle λ = 1. Für die Rückrichtung e)⇒d)“ unter-
”
”
scheide die beiden Fälle λ > 0 und λ = 0. Für λ > 0 folgert man Aussage d) aus e) mit y := λ−1 y.
Um die Behauptung, für alle y ≥ 0 mit AT y ≤ 0 gilt bT y ≤ 0, zu folgern, wähle x0 ∈ Z (existiert
nach Voraussetzung): Wegen Ax0 ≥ b, AT y ≤ 0 und x0 , y ≥ 0 gilt dann bT y ≤ xT0 AT y ≤ 0.
5. Dualität
171
Obwohl von Neumann diesen Satz bereits 1947 formulierte und bewies, ist er erst
1951 explizit in einer Arbeit von Tucker, Kuhn und Gale erschienen. Auch einem
linearen Programm in Standardform,
LPstd
minimiere cT x, so dass Ax = b
x ≥0
ordnet man ein duales Programm zu (beachte, y sind freie Variablen):
maximiere bT y,
LP* std
so dass AT y + s = c
s ≥ 0.
∗
Für die Standardform gilt auch die schwache Dualität, d.h. für x ∈ Zstd und y ∈ Zstd
ist bT y ≤ cT x, denn
bT y = (Ax)T y = xT (AT y) ≤ xT c.
Der Dualitätssatz, die Gleichheit der optimalen Zielwerte, überträgt sich ebenfalls
(siehe Übungsaufgabe 16.3):
Korollar 13.20 (Dualität). Hat das primale Programm LPstd in Standardform eine
optimale Lösung, so auch das duale Programm LP* std und beide Zielwerte stimmen
überein.
Zum Abschluß geben wir eine Motivation des dualen Programms basierend auf
den Simplex-Tableaus. Zum linearen Programm in Standardform
LPstd
minimiere cT x, so dass Ax = b
x ≥0
wird eine weitere Variable −z und eine zusätzliche Restriktion −z + cT x = 0 hinzugefügt, das neues Ziel ist die Minimierung von z. Bezogen auf das Tableau
−z
x
0
A
b
1
cT
0
subtrahiert man Vielfache der oberen Zeilen von der Zielzeile, um den Wert im Feld
rechts unten zu maximieren. Bezeichne y die Vielfachen, so steht in der letzten Zeile
der Vektor der Schattenpreise s := c − AT y. Wir haben eine optimale Lösung x
gefunden, dann und nur dann, wenn die Schattenpreise s ≥ 0 sind. Aufgrund6
xT s = xTB sB + xTN sN = 0
|{z} |{z}
=0
=0
und Ax = b gilt:
0 = xT s = xT c − xT AT y = cT x − bT y.
(36)
6Wegen x, s ≥ 0 muß für alle i entweder x oder s Null sein. Man nennt dies komplementäre
i
i
Slackness.
172
13. Lineare Programmierung
Die Minimierung von cT x ist daher gleichwertig zur Maximierung von bT y. Beim
Rechnen im Simplex-Tableau haben wir durch die Multiplizierer y und die Schattenpreise s eine Lösung des dualen linearen Programms ermittelt:
LP* std
maximiere bT y, so dass AT y + s = c
s ≥ 0.
Gleichung (36) liefert die starke Dualität: Die optimalen Zielwerte des primalen und
des dualen Programms stimmen, sofern einer endlich ist, überein. Kombiniert man
primales und duales Programm, ergibt sich ein System linearer Ungleichungen:
Ax = b
AT y + s = c
cT x − bT y = 0
(37)
x, s ≥ 0
Das Finden einer Lösung (x, y, s) ist gleichwertig zur linearen Programmierung, denn
x stellt in diesem Fall wegen der starken Dualität eine optimale Lösung des primalen
Ausgangsprogramms dar. Faßt man (37) als Restriktionen für ein lineares Programm
auf, so ist bereits das Finden einer Startecke für den Simplex-Algorithmus äquiva”
lent“ zum linearen Programmieren.
Kapitel 14
Reelle und komplexe
Vektorräume
In diesem Abschnitt untersuchen wir Linear-, Bilinear- und quadratische Formen. Der
duale Vektorraum wird eingeführt und wir gehen ausführlich auf Skalarprodukte im
Rn und im Cn ein. Wir betrachten symmetrische, orthogonale (hermitesche,unitäre)
Matrizen und die zugehörigen Endomorphismen.
1. Dualität linearer Räume
Zu einem K-Vektorraum V haben wir in Kapitel 6 auf Seite 63 die Bezeichnung
Lin(V, K) := {` : V → K | ` ist Homomorphismus }
für die Menge der linearen Abbildungen ` : V → K eingeführt. Nach Satz 6.2 ist
Lin(V, K) mit Addition und skalarer Multiplikation
(`1 + `2 )(v) := `1 (v) + `2 (v)
(λ · `)(v) := λ · `(v)
für `1 , `2 , ` ∈ Lin(V, K) und λ ∈ K ein K-Vektorraum.
Sei b1 , . . . , bn eine Basis von V . Gibt es eine zugehörige Basis von Lin(V, K)?
Definiere lineare Abbildungen `1 , . . . , `n ∈ Lin(V, K) gemäß
(
1 falls i = j
`i (bj ) = δi,j =
0 sonst.
Solche linearen Abbildungen existieren und sind eindeutig bestimmt, denn die Bilder
der Basisvektoren charakterisieren eine lineare Abbildung eindeutig.
Satz 14.1. Sei V ein endlich-dimensionaler K-Vektorraum mit Basis b1 , . . . , bn ∈
V . Dann bilden `1 , . . . , `n ∈ Lin(V, K) mit `i (bj ) = δi,j eine Basis von Lin(V, K).
Insbesondere ist dim V = dim Lin(V, K).
173
174
14. Reelle und komplexe Vektorräume
Beweis.
Die Abbildungen `1 , . . . , `n ∈ Lin(V, K) sind linear unabhängig, denn aus
Pn
λ
`
i=1 i i ≡ 0 (Nullabbildung) folgt
0=
n
X
λi `i (bj ) = λj `j (bj ) = λj
i=1
für alle j = 1, . . . , n. Zu zeigen bleibt, dass die Abbildungen `1 , . . . , `n ∈ Lin(V, K)
den Raum Lin(V, K) erzeugen. Zu ` ∈ Lin(V, K) definiere λi := `(bi ) und
0
` :=
n
X
λi · `i ∈ span(`1 , . . . , `n ).
i=1
Die Bilder der Basisvektoren b1 , . . . , bn der beiden Funktionen ` und `0 stimmen überein
`(bi ) = λi = `0 (bi ),
so dass ` = `0 ist. Die linearen Abbildungen `1 , . . . , `n ∈ Lin(V, K) erzeugen folglich
Lin(V, K).
In Satz 14.1 verwenden wir implizit dim V < ∞, weil nur endliche Summen allgemein
erklärt sind.
Def inition 14.2 (Dualer Vektorraum, duale Basis). Sei V ein K-Vektorraum mit
Basis b1 , . . . , bn ∈ V . Dann heißt L∗ := Lin(V, K) der duale Vektorraum (Dualraum)
zu V und `1 , . . . , `n ∈ Lin(V, K) mit `i (bj ) = δi,j ist die duale Basis zu b1 , . . . , bn ∈ V .
Bei der Definition der dualen Basis ist die Rolle von `i und bi symmetrisch. Jeder
Vektor b ∈ V operiert als lineare Abbildung auf Lin(V, K) gemäß
b:
Lin(V, K) → K
`
7→ `(b).
Es gilt:
Korollar 14.3. Sei V ein endlich-dimensionaler K-Vektorraum. Dann gilt:
(V ∗ )∗ = V.
Betrachten wir den Fall V = Kn . Es gilt Lin(Kn , K) ∼
= Kn , die lineare Abbildung
n
` ∈ Lin(K , K) läßt sich schreiben als
`(x1 , . . . , xn ) =
n
X
ai xi
i=1
mit den Koeffizienten ai := `(ei ) für die kanonischen Einheitsvektoren e1 , . . . , en . Man
nennt das formale Polynome
`=
n
X
ai Xi ∈ K[X1 , . . . , Xn ]
i=1
eine Linearform in den Variablen X1 , . . . , Xn .
1. Dualität linearer Räume
175
Def inition 14.4 (Annulator, Nullstellenmenge). Sei V ein endlich-dimensionaler
K-Vektorraum. Zu M ⊆ V heißt
M 0 := {` ∈ V ∗ | `(m) = 0 für alle m ∈ M }
Annulator von M . Zu L ⊆ V ∗ nennt man
L0 := {v ∈ V | `(v) = 0 für alle ` ∈ L }
die Nullstellenmenge von L.
Eine Teilmenge I ⊆ K[X1 , . . . , Xn ] heißt Polynomideal, wenn (I, +) eine abelsche
Gruppe ist und I · K[X1 , . . . , Xn ] ⊆ I.1 Zu M ⊆ Kn ist der Annulator
M 0 = {p ∈ K[X1 , . . . , Xn ] | p(x) = 0 für alle x ∈ M }
ein Polynomideal. Zum Ideal I ⊆ K[X1 , . . . , Xn ] ist die Nullstellenmenge I 0 ⊆ Kn
eine Manigfaltigkeit mit
(I 0 )0 ⊇ I.
(I 0 )0 ist ein Radikalideal, es enthält zu f auch jedes Polynom g mit g q = f für q ∈ N.
Für Radikalideale I gilt (I 0 )0 = I.
Satz 14.5. Sei V ein endlich-dimensionaler K-Vektorraum und U ⊆ V ein Untervektorraum. Dann ist der Annulator U 0 ⊆ V ∗ von U ein Untervektorraum von V ∗ ,
so dass gilt
dim U + dim U 0 = dim V
und (U 0 )0 = U .
Beweis. Sei b1 , . . . , bm eine Basis von U und b1 , . . . , bm , . . . , bn eine Basis von V . Sei
`1 , . . . , `n ∈ V ∗ die duale Basis zu b1 , . . . , bn . Dann gilt:
U 0 ⊆ span(`m+1 , `m+2 , . . . , `n ).
Somit ist
dim U + dim U 0 = m + (n − m) = n = dim V.
Offenbar gilt (U 0 )0 = span(b1 , . . . , bm ) = U .
Zum Abschluß wollen den dualen Vektorrraum mit dem dualen Code aus Kapitel 7 vergleichen und Gemeinsamkeiten aufzeigen. Zu einem Körper K ist ein linearer
Code ein Untervektorraum C des Vektorraums Kn . Der zu C dualen Code ist nach
Definition 7.19 auf Seite 78 erklärt als
C ⊥ := u ∈ Kn cT u = 0 für alle c ∈ C
Es gilt C 0 ∼
= C ⊥ , dim C + dim C ⊥ = dim V und (C ⊥ )⊥ = C. Der Annulator C 0
und der duale Code C ⊥ sind in verschiedene Räume, nämlich Kn und Lin(Kn , K)
eingebettet.
1D.h. mit f ∈ I und g ∈ K[X , . . . , X ] liegt auch das Produkt f g im Ideal I.
1
n
176
14. Reelle und komplexe Vektorräume
2. Bilineare, Sesquilineare und quadratische
Formen
Sei K ein Körper und V ein K-Vektorraum. Eine Abbildung s : V × V → K nennen
wir Bilinearform, wenn sie in jeder Komponente linear ist:
Def inition 14.6 (Bilinearform). Sei V ein K-Vektorraum. Eine Abbildung s : V ×
V → K heißt bilinear (Bilinearform) auf V , wenn für alle u, v, w ∈ V und λ ∈ K gilt:
(B1) s(u + v, w) = s(u, w) + s(v, w) und s(λv, w) = λs(v, w).
(B2) s(u, v + w) = s(u, v) + s(u, w) und s(v, λw) = λs(v, w).
Eine Bilinearform s : V × V → K heißt symmetrisch, wenn s(v, w) = s(w, v) für alle
v, w ∈ V .
Das kanononische Skalarprodukt h·, ·i : Rn × Rn → R mit hv, wi = v T w induziert eine symmetrische Bilinearform auf Rn . Welche Bilinearformen stellen ihrerseits
Skalarprodukte dar?
Def inition 14.7 (Positiv definite Bilinearform). Eine Bilinearform s : V × V → R
eines R-Vektorraums V heißt positiv definit, wenn für alle v ∈ V gilt:
a) s(v, v) ≥ 0.
b) s(v, v) = 0 gdw. v = 0.
Aus der Definition auf Seite 176 folgt unmittelbar:
Satz 14.8. Sei V ein R-Vektorraum und s : V × V → R eine Bilinearform. Genau
dann ist s symmetrisch und positiv definit, wenn s ein Skalarprodukt ist.
Betrachten wir ein weiteres Beispiel eines Skalarprodukts. Sei I := [a, b] ⊆ R ein
Intervall und V := C(I, R) der R-Vektorraum der stetigen Funktionen f : I → R. Die
Abbildung V × V → R mit
Z b
(f, g) 7→
f (t)g(t)dt
a
ist eine symmetrische, positiv definite Billinearform, also ein Skalarprodukt auf dem
Vektorraum C(I, R).
Sei B = {b1 , . . . , bn } ⊂ V eine geordnete Basis des K-Vektorraums V . Zum Vektor
Bt =
n
X
ti b i ∈ V
i=1
nennen wir t ∈ Kn den Koordinatenvektor von Bt. Eine Bilinearform s : V × V → K
wird zur Basis B durch die Matrix
MB (s) := s(bi , bj ) 1≤i,j≤n ∈ Mn,n (K)
dargestellt. Es gilt:
s(Bt, Bt0 ) = tT · MB (s) · t0 .
(38)
2. Bilineare, Sesquilineare und quadratische Formen
177
Man kann sich leicht überlegen, dass zu zwei Bilinearformen s, s0 ihre Summe s + s0
mit (s + s0 )(v, w) = s(v, w) + s0 (v, w) ebenfalls eine Bilinearform ist, ebenso skalare Vielfache. Die Menge der Bilinearformen eines K-Vektorraums ist folglich ein KVektorraum. Da jede n × n-Matrix über K eine Bilinearform definiert und umgekehrt,
gilt:
Korollar 14.9. Sei V ein K-Vektorraum der Dimension n := dim V . Dann ist der
K-Vektorraum der Bilinearformen auf V isomorph zu Kn×n .
Seien A und B Basen eines K-Vektorraums V . Dann existiert eine invertierbare
Matrix2 T ∈ GLn (K) für den Basiswechsel von B zu A, also A = BT . Der Kordinatenvektor zu b = At bezüglich der Basis B ist gegeben durch T t, denn
b = At = (BT )t = B(T t).
Für die darstellende Matrix einer Bilinearform gilt folgende Transformationsformel
beim Basiswechsel:
Korollar 14.10. Seien A und B Basen eines K-Vektorraums mit A = BT . Dann gilt
für die darstellende Matrix einer Bilinearform s : V × V → K:
MB (s) = T T · MA (s) · T.
Beweis. Nach Gleichung (38) gilt:
s(Bt, Bt0 ) = tT · MB (s) · t0
= (T t)T · MA (s) · (T t0 )
= tT · T T · MA (s) · T · T t0 .
Es folgt MB (s) = T T · MA (s) · T .
Zum Vergleich: Für einen Endomorphismus f : V → V lautet die Transformationsformel aus Gleichung (15) auf Seite 68:
MB (f ) = T −1 · MA (f ) · T.
Aus Korollar 14.10 folgt, dass wie bei Endomorphismen der Rang der Darstellungsmatrix unabhängig von der Wahl der Basis ist:
Def inition 14.11 (Rang einer Bilinearform). Der Rang einer Bilinearform s : V ×
V → K ist der Rang rang(MB (s)) der Darstellungsmatrix bezüglich einer Basis B des
Vektorraums V .
Def inition 14.12 (Positiv definite Matrix). Eine reelle, quadratische Matrix A ∈
Mn,n (R) heißt positiv definit, wenn xT Ax ≥ 0 für alle x ∈ Rn und xT Ax = 0
gdw. x = 0.
Offenbar gilt:
−1
2Zur Erinnerung: GL (K) = A ∈ M
existiert ist die Gruppe der invertierbaren
n
n,n (K) A
n × n-Matrizen über K.
178
14. Reelle und komplexe Vektorräume
Korollar 14.13. Sei V ein R-Vektorraum mit Basis B und s : V × V → R eine
Bilinearform. Genau dann ist s ein Skalarprodukt auf V , wenn die Matrix MB (s)
symmetrisch und positiv definit ist.
Für den reellen Vektorraum Rn ist hv, wi = v T w das Standardskalarprodukt.
Auch für den komplexen Vektorraum Cn gibt es ein kanonisches Skalarprodukt:3
n
X
T
vi wi .
hv, wiC = v w =
i=1
1
2 -linear),
Die Abbildung h·, ·iC ist sesquilinear (d.h. 1 +
es gilt hv, wiC = hw, viC und
hv, viC ∈ R≥0 sowie die Äquivalenz hv, viC = 0 gdw. v = 0.
Def inition 14.14 (Sesquilinearform). Sei V ein C-Vektorraum. Eine Abbildung s :
V × V → C heißt sesquilinear (Sesquilinearform) auf V , wenn für alle u, v, w ∈ V
und λ ∈ C gilt:
(SE1) s(u + v, w) = s(u, w) + s(v, w) und s(λv, w) = λ · s(v, w).
(SE2) s(u, v + w) = s(u, v) + s(u, w) und s(v, λw) = λ · s(v, w).
Eine Sesquilinearform h : V × V → C heißt hermitesch (hermitesche Form), wenn
h(v, w) = h(w, v) für alle v, w ∈ V .
Für hermitesche Formen h gilt h(v, v) = h(v, v), so dass h(v, v) stets reell ist:
Def inition 14.15 (Positiv definite, hermitesche Form). Eine hermitesche Form h :
V × V → C eines C-Vektorraums V heißt positiv definit, wenn für alle v ∈ V gilt:
a) h(v, v) ≥ 0.
b) h(v, v) = 0 gdw. v = 0.
Zu einem reellen Vektorraum V nennt man eine symmetrische Bilinearform, die
positiv definit ist, Skalarprodukt auf V . Für komplexe Vektorräume heißen hermitesche Formen, die positiv definit sind, Skalarprodukte:
Def inition 14.16 (Skalarprodukt). Sei V ein C-Vektorraum. Eine hermitesche Form
h : V × V → C heißt Skalarprodukt auf V , wenn h positiv definit ist.
Def inition 14.17 (Hermitische und positiv definite Matrix). Eine Matrix A ∈
Mn,n (C) heißt
a) hermitesch, wenn A = AT .
b) positiv definit, wenn xT Ax ∈ R≥0 für alle x ∈ Cn und xT Ax = 0 gdw. x = 0.
Für eine Matrix A mit reellen Einträgen bedeutet A = AT wegen A = A, dass die
Matrix symmetrisch ist.
Korollar 14.18. Sei V ein C-Vektorraum mit Basis B und s : V × V → C eine
Bilinearform. Genau dann ist s ein Skalarprodukt auf V , wenn die Matrix MB (s)
hermitesch und positiv definit ist.
3Zur Erinnerung: Zu a + ib ∈ C ist die konjugierte komplexe Zahl a + ib = a − ib. Die Abbildung
x 7→ x ist ein Automorphismus des Körpers C mit x = x. Es gilt y = y gdw. y ∈ R. Für z = a + ib ∈ C
gilt zz = a2 + b2 ∈ R.
2. Bilineare, Sesquilineare und quadratische Formen
179
Wir haben bereits in Kapitel 11 den Begriff euklidischer Vektorraum“ für einen
”
reellen Vektorraum in Verbindung mit einem Skalarprodukt verwendet:
Def inition 14.19 (Euklidischer bzw. unitärer Vektorraum). Ein euklidischer
(unitärer) Vektorraum V ist ein R-Vektorraum (C-Vektorraum) zusammen mit einem Skalarprodukt auf V .
Wir ordnen jeder Bilinearform eine quadratische Form zu:
Def inition 14.20 (Quadratische Form). Sei s : V × V → K eine Bilinearform auf
einem K-Vektorraums V . Die zugehörige, quadratische Form q : V → K ist erklärt
durch q(v) := s(v, v).
Ist die Bilinearform durch s(Bt, Bt0 ) = t·MB (s)·t0 gegeben, gilt für die zugehörige,
quadratische Form
q((Bt) = t · MB (s) · t.
Faßt man die Koordinaten t1 , . . . , tn von t als formale Variable auf, gilt q ∈ K[t1 , . . . , tn ].
Dies ist ein quadratisches Polynom, homogen vom Grad 2.
Satz 14.21. Sei K ein Körper mit Charakteristik4 char(K) 6= 2. Für die zugehörige,
quadratische Form q einer symmetrischen Bilinearform s : V × V → K auf dem
K-Vektorrraum gilt:
s(v, w) = 21 q(v + w) − q(v) − q(w) .
Beweis. Aus der Bilinearität von s folgt:
(1 + 1) · s(v, w) = s(v + w, w) − s(w, w) + s(v, w + v) − s(v, w) .
|
{z
} |
{z
}
=s(v,w)
=s(v,w)
Wegen der Voraussetzung char(K) 6= 2 ist 1 + 1 6= 0 und wir können durch (1 + 1)
dividieren.
In Satz 11.12 auf Seite 123 haben wir die Cauchy-Schwarz-Ungleichung bereits für
euklidische Vektorräume bewiesen.
Satz 14.22 (Cauchy-Schwarz-Ungleichung). In jedem euklidischen oder unitärem
Vektorraum V gilt für v, w ∈ V :
|hv, wi| ≤ kvk · kwk .
Die Gleichheit gilt genau dann, wenn beide Vektoren linear abhängig sind.
Der Beweis der Cauchy-Schwarz-Ungleichung, den wir im folgenden geben, basiert
auf folgenden Satz aus [Fischer92]:
4Wir führen die Charakteristik eines Körpers in Kapitel 15 ein. Die Charakteristik der Körper Q,
R und C ist zum Beispiel Null, die der endlichen Körper Zp ist gleich p. Für Körper mit char(K) 6= 2
gilt 1 + 1 6= 0.
180
14. Reelle und komplexe Vektorräume
Fakt 14.23 (Determinanten-Multiplikations-Theorem). Sei A = (a1 , . . . , an ) ∈ Mm,n (K)
und B = (b1 , . . . , bm ) ∈ Mn,m (K). Dann gilt für für die m × m-Matrix AB T :
X
det(AB T ) =
det(ai1 , . . . , aim ) · det(bi1 , . . . , bim ).
1≤i1 ≤···≤im ≤n
Insbesondere ist det AB T = 0 für n < m.
Aus dem Determinanten-Multiplikations-Theorem folgern wir, dass für jede m × nMatrix A über einem Körper K gilt:
X
det AAT =
det(ai1 , . . . , aim )2 .
1≤i1 ≤···≤im ≤n
Speziell:
a) Für K = R gilt det AAT ≥ 0.
b) Für K = C ist det AAT eine reelle Zahl größer oder gleich Null.
Wir wollen nun die Cauchy-Schwarz-Ungleichung aus Satz 14.22 beweisen. O.B.d.A. sei
V = Cn . Zu v = (v1 , . . . , vn )T ∈ Cn und w = (w1 , . . . , wn )T ∈ Cn erkläre
T v
v1 · · · vn
A :=
=
∈ M2,n (C).
wT
w1 · · · wn
Für die Determinante der Matrix
T
AA =
hv, vi hv, wi
hw, vi hw, wi
gilt nach vorherigen Folgerungen aus dem Determinanten-Multiplikations-Theorem:
det AAT = hv, vi · hw, wi − hv, wi · hw, vi
= kvk2 · kwk2 − |hv, wi|2
≥ 0.
Also |hv, wi|2 ≤ kvk2 · kwk2 . Für die Gleichheit haben wir folgende Äquivalenz:
|hv, wi|2 = kvk2 · kwk2
⇐⇒
det AAT = 0.
Die Forderung det AAT = 0 ist gleichbedeutend damit, dass die 2 × 2-Matrix AAT
nicht vollen Rang hat, d.h. der Rang von A ist maximal 1.
|hv, wi|2 = kvk2 · kwk2
⇐⇒
v, w linear abhängig.
Wir geben einen weiteren Beweis der Cauchy-Schwarz-Ungleichung aus Satz 14.22
in Übungsaufgabe 19.1 mit Hilfe einer Isometrie5 ψ : span(v, w) → C2 mit ψ(v) ∈
(0, 1)T C.
5D.h. hv, wi = hψ(v), ψ(w)i für alle v, w.
3. Hauptachsentransformation symmetrischer Matrizen
181
3. Hauptachsentransformation symmetrischer
Matrizen
Der zentrale Satz dieses Abschnitt lautet:
Satz 14.24. Für symmetrische Matrizen A ∈ Mn,n (R) sind folgende Aussagen äquivalent:
a) A ist positiv definit.
b) Es existiert eine invertierbare Matrix T ∈ GLn (R) mit A = T T T .
Vor dem Beweis zu Satz 14.24 folgern wir:
Korollar 14.25. Im Rn geht jedes Skalarprodukt h·, ·i : Rn × Rn → R durch einen
Basiswechsel aus dem kanonischen Skalarprodukt h·, ·ikan hervor.
Beweis. Sei I = {e1 , . . . , en } die Standardbasis des Rn und B = IT eine weitere
Basis (mit Transformationsmatrix T ). Dann gilt:
hIt, Isikan = ht, sikan = tT s.
Sei andererseits h·, ·i ein beliebiges Skalarprodukt auf den Koordinatenvektoren.
Mit A := T T T gilt:
ht, si = tT As
Sei A := BT . Der Koordinatenvektor zu b := Bt ∈ Rn bezüglich A ist s := T −1 t,
denn
b = Bt = BT T −1 t = As.
Der Koordinatenvektor zu b0 := Bt0 ∈ Rn bezüglich A ist s0 := T −1 t0 . Das kanonische
Skalarprodukt zur Basis A ist:
0
0
T
b, b kan = Bt, Bt0 kan = T t, T t0 kan = tT T
| {zT} t .
=:A
Das kanonische Skalarprodukt geht beim Basiswechsel in ein beliebiges Skalarprodukt
der Koordinantenvektoren über.
Wir kommen zum Beweis von Satz 14.24:
Beweis. Die Rückrichtung von von Satz 14.24 ist offensichtlich:
tT T T T t = (T t)T · (T t) ≥ 0.
Sei A = (ai,j )1≤i,j≤m symmetrisch und positiv definit. Für die obere Dreiecksmatrix

a13
a1n 
1 − aa12
−
·
·
·
−
a
a11
11
11
0

1
0
·
·
·
0


 ..
.. 
..
..
T1 :=  .
∈ ODn (R)
(39)
.
.
. 


0 · · ·

···
1
0
0 ···
···
0
1
182
14. Reelle und komplexe Vektorräume
gilt:
T1T AT1
=
a11 0
.
0 A0
Weil A positiv definit ist, gilt a11 > 0 und A0 ist ebenfalls positiv definit. Wende
die entsprechende Transformationsmatrix induktiv auf A0 an. Es existiert ein Tn ∈
GLn (R) mit


a11 0 · · · · · ·
0
 0 a22
0 


 ..
.. 
..
..
T

.
.
. 
D := Tn ATn =  .



..
 0
. 0
0
0 
0
0 · · · 0 ann
√
√
√
√
Setze T := Tn / D mit D := Diag( a11 , . . . , ann ). Dann gilt T T AT = In .
Falls die Matrix A über einem beliebigem Körper K ist, können wir, sofern A 6= 0,
o.B.d.A. a11 6= 0 in Gleichung (39) voraussetzen (permutiere gegenenfalls die Zeilen
und Spalten von A derart, dass die erste Zeile von A nicht Null ist). Führt man den
Beweis wie in Satz 14.24, folgt:
Korollar 14.26. Sei K ein Körper und A ∈ Mn,n (K) eine symmetrische Matrix.
Dann gibt es ein T ∈ GLn (K), so dass D := T T AT eine Diagonalmatrix ist bzw. es
gilt A = (T −1 )T DT −1 .
Wir folgern weiter aus dem Beweis zu Satz 14.24:
Korollar 14.27. Sei A ∈ Mn,n (R) eine symmetrische Matrix. Dann gibt es ein
T ∈ GLn (R) mit D = T T AT für eine Diagonalmatrix D mit Einträgen aus {±1, 0}.
Beweis. Wegen Korollar 14.26 sei o.B.d.A. A eine Diagonalmatrix:


a11 0 · · · · · ·
0
 0 a22
0 


 ..
.. 
..
..

.
.
. 
A= .



..
 0
. 0
0
0 
0
0 · · · 0 ann
Definere die Matrix T = (tij )1≤i,j≤n gemäß

√1

falls i = j und aii > 0.

aii


√ 1
falls i = j und aii < 0.
−aii
tij :=

1
falls i = j und aii = 0.




0
falls i 6= j.
Offenbar ist D := T T AT eine Diagonalmatrix mit Einträgen aus {±1, 0}.
3. Hauptachsentransformation symmetrischer Matrizen
183
Korollar 14.28. Sei V ein R-Vektorraum und s : V × V → R eine Bilinearform.
Dann gibt es eine Basis B sowie eine Diagonalmatrix D mit Einträgen aus {±1, 0},
für die gilt:
s(Bt, Bt0 ) = tT Dt0 .
Wir haben in Definition 14.7 auf Seite 176 eine Bilinearform s : V × V → R eines
R-Vektorraums V positiv definit genannt, wenn für alle v ∈ V
a) s(v, v) ≥ 0
b) s(v, v) = 0 gdw. v = 0
gilt. Wir wollen die Bezeichung negativ definit“ für den Fall, dass s(v, v) ≤ 0 für alle
”
v ∈ V ist, einführen:
Def inition 14.29 (Negativ definite und indefinite Bilinearform). Eine Bilinearform
s : V × V → R eines R-Vektorraums V heißt negativ definit, wenn −s positiv definit ist. Die Bilinearform nennt man indefinit, wenn s(v, v) sowohl negative als auch
positive Werte annimmt.
Def inition 14.30 (Degeneriete Bilinearform). Eine Bilinearform s : V × V → R
eines R-Vektorraums V nennt man degeneriert, wenn für ein v ∈ V \ {0} gilt s(v, ·) ≡
0.
Zu einer Bilinearform s : V × V → R ist der Nullraum N(s) erklärt als die Menge
aller Vektoren v ∈ V , für die s(v, ·) die Nullabbildung, also s(v, ·) ≡ 0, ist. Offenbar
ist N(s) ein Untervektorraum von V :
Def inition 14.31 (Nullraum einer Bilinearform). Zur Bilinearform s : V × V → R
eines R-Vektorraums V heißt
N(s) := {v ∈ V | s(v, ·) ist Nullabbildung }
der Nullraum (auch Ausartungsraum).
Die Bilinearform s : V × V → R ist genau dann degeneriert, falls der Nullraum
N(s) neben der Null weitere Vektoren enthält, also dim N(s) > 0.
Lemma 14.32. Sei s : V × V → R Bilinearform eines R-Vektorraums V . Dann gilt:
dim N(s) + rang s = dim V.
Beweis. Sei B eine Basis von D, so dass eine Diagonalmatrix D mit Einträgen aus
{±1, 0} und
s(Bt, Bt0 ) = tT Dt0 .
existiert (Korollar 14.28). Dann ist:
dim N(s) = {i | dii = 0 }
rang s = {i | dii 6= 0 }
Aus rang s = dim V − dim N(s) folgt die Behauptung.
184
14. Reelle und komplexe Vektorräume
4. Unitäre Endomorphismen und Matrizen
Wir hatte bereits auf Seite 127 orthogonale Abbildungen und Matrizen für den Rn
eingeführt. Diese Begriffe übertragen wir auf den Fall komplexer Vektorräume:
Def inition 14.33 (Orthogonale und unitäre Endomorhismus). Sei V ein euklidischer
(unitärer) Vektorraum mit Skalarprodukt h·, ·i. Ein Endomorhismus f : V → V heißt
orthogonal (unitär), wenn für alle v, w ∈ V gilt:
hv, wi = hf (v), f (w)i .
Man verwendet alternativ auch die englische Bezeichnung Isometrie“. Die Spalten”
und die Zeilenvektoren einer orthogonalen bzw. unitären Matrix bilden bezüglich des
kanonischen Skalarprodukts jeweils eine Orthonormalbasis6 des Rn bzw. Cn . Mit f
ist auch die inverse Abbildung f −1 ein unitärer Endomorphismus. Für die Eigenwerte
λ von f gilt |λ| = 1.
Def inition 14.34 (Orthogonale und unitäre Matrix). Eine reelle, quadratische Matrix A ∈ Mn,n (R) heißt orthogonal, wenn AT A = In . Eine komplexe, quadratische
Matrix A ∈ Mn,n (C) heißt unitär, wenn AT A = In . Die Menge der orthogonalen
n × n-Matrizen bezeichnet man mit On (R), die er unitären Matrizen mit Un (C).
In Satz 11.24 auf Seite 128 haben wir gezeigt, dass On (R) eine Gruppe ist. Analog
weist man nach, dass Un (C) ebenfalls eine Gruppe ist.
Satz 14.35. Sei V ein euklidischer (unitärer) Vektorraum mit Orthonormalbasis B.
Der Endomorphismus f : V → V ist genau dann orthogonal (unitär), wenn die
Darstellungsmatrix MB (f ) orthogonal (unitär) ist.
Beweis. Da B orthonormal ist, haben wir hBt, Bsi = ht, si. Falls f unitär ist, gilt
hMB (f )t, MB (f )si = tT MB (f )T · MB (f )s.
Der Endomorphismus f ist genau dann unitär, wenn MB (f )T · MB (f ) = In ist.
Satz 14.36. Sei V ein unitärer Vektorraum und f : V → V ein Endomorphismus.
Dann gibt es eine Orthonormalbasis von V bestehend aus Eigenvektoren von f .
Beweis. Wir führen den Beweis durch Induktion über die Dimension n := dim V .
Die Verankerung ist offensichtlich, so dass im weiteren n ≥ 2 sei. Das charakteristische
Polynom χf ∈ C[X] hat gemäß Fundamentalsatz der Algebra (Fakt 4.23 auf Seite
52) eine Nullstelle λ1 ∈ C. Da f ein Isomorphismus ist, gilt λ1 6= 0. Es gibt einen
Eigenvektor v1 ∈ V \ {0} zu λ1 mit f (v1 ) = λ1 v1 . Sei
W := {w ∈ V | hv1 , wi = 0 } = span(v1 )⊥ .
Weil f ein Isomorphismus ist, genügt der Nachweis der Inklusion f (W ) ⊆ W , um
f (W ) = W zu zeigen. Für w ∈ W gilt:
λ1 hv1 , f (w)i = hλ1 v1 , f (w)i = hf (v1 ), f (w)i = hv1 , wi = 0.
6Zur Erinnerung: Die Basis b , b , . . . , b heißt Orthonormalbasis, wenn hb , b i = δ
1 2
n
i j
i,j für 1 ≤
i, j ≤ n.
4. Unitäre Endomorphismen und Matrizen
185
Nach Induktionsannahme gibt es eine Orthonormalbasis von W bestehend aus Eizu einer
genvektoren von f |W . Wir ergänzen diese Basis durch den Vektor √ v1
hv1 ,v1 i
Orthonormalbasis von V bestehend aus Eigenvektoren von f .
Korollar 14.37. Sei A ∈ Un (C) eine unitäre Matrix. Dann existiert eine unitäre
Matrix S ∈ Un (C) mit


λ1
0


..
S −1 AS = 

.
0
λn
für λ1 , . . . , λn ∈ C mit |λi | = 1. Insbesondere ist A diagonalisierbar.
Beweis. Fasse A als Darstellungsmatrix von f bezüglich einer Orthogonalbasis von
V auf. Dann ist


λ1
0


..


.
0
λn
die Darstellungsmatrix bezüglich einer Orthonormalbasis aus Eigenvektoren. Die Matrix S ∈ Un (C) transformiert die beiden Orthonormalbasen ineinander.
Wir leiten in Übungsaufgabe 21.3 eine Darstellung wie in Korollar 14.37 her, für den
Fall, dass die Matrix A reelle Einträge hat:
Satz 14.38. Sei A ∈ On (R). Dann existiert eine orthogonale Matrix S ∈ On (R), so
dass S T AS eine Diagonalmatrix mit Kästchen der Form
cos ϕ − sin ϕ
cos ϕ
sin ϕ
±1 ,
,
sin ϕ cos ϕ
− sin ϕ − cos ϕ
ist.
Wir erhalten:
Korollar 14.39. Sei V ein euklidischer Vektorraum und f : V → V ein orthogonaler
Endomorphismus. Dann gibt es zu V eine Orthonormalbasis B derart, dass die Darstellungmatrix MB (f ) von f zur Basis B eine Diagonalkastenmatrix mit Kästchen
der Form
cos ϕ − sin ϕ
cos ϕ
sin ϕ
±1 ,
,
sin ϕ cos ϕ
− sin ϕ − cos ϕ
mit ϕ ∈ [0, 2π) ist.
Bemerkung 14.40. Die Kastenmatrix
cos ϕ
sin ϕ
SPϕ :=
∈ O2 (R)
− sin ϕ − cos ϕ
in Satz 14.38 und Korollar 14.39 stellt eine Spiegelung an einer Geraden dar. Es gibt
eine orthogonale Matrix S ∈ O2 (R) mit
+1 0
T
S · SPϕ ·S =
,
0 −1
186
14. Reelle und komplexe Vektorräume
so dass die Kastenmatrix der Form SPϕ in Satz 14.38 und Korollar 14.39 entfällt. Um
dies zu zeigen, betrachte das charakteristische Polynom der Kastenmatrix SPϕ :
cos ϕ − λ
sin ϕ
χSPϕ (λ) = det
− sin ϕ − cos ϕ − λ
= (cos ϕ − λ)(− cos ϕ − λ) − sin2 ϕ
= λ2 − cos2 ϕ − sin2 ϕ
= λ2 − 1.
Die Matrix SPϕ hat die beiden Eigenwerte ±1:
• Eigenvektor zum Eigenwert +1 ist (− sin ϕ, cos ϕ − 1)T .
• Eigenvektor zum Eigenwert −1 ist (− sin ϕ, cos ϕ + 1)T .
Man kann für S ∈ O2 (R) die Matrix
√ − sin ϕ
2−2 cos ϕ
√cos ϕ−1
2−2 cos ϕ
√ − sin ϕ
2+2 cos ϕ
√cos ϕ+1
2+2 cos ϕ
!
wählen.
5. Normalform selbstadjungierter
Endomorphismen
Wir beginnen mit der Definition von selbstadjungierten Endomorphismen:
Def inition 14.41 (Selbstadjungierter Endomorphismus). Sei V ein euklidischer (unitärer)
Vektorraum endlicher Dimension. Ein Endomorphismus f : V → V heißt selbstadjungiert, wenn für alle v, w ∈ V gilt:
hf (v), wi = hv, f (w)i .
In Satz 14.35 auf Seite 184 haben wir gesehen, dass ein Endomorphismus genau
dann orthogonal (unitär) ist, wenn die Darstellungsmatrix bezüglich einer Orthonormalbasis orthogonal (unitär) ist. Sollte die Matrix hingegen symmetrisch (hermitesch)
sein, so ist dann und nur dann der Endomorphismus selbstadjungiert:
Satz 14.42. Sei V ein euklidischer (unitärer) Vektorraum mit Orthonormalbasis B.
Ein Endomorphismus f : V → V ist genau dann selbstadjungiert, wenn die Darstellungsmatrix MB (f ) symmetrisch (hermitesch) ist.
Beweis. Weil B eine Orthonormalbasis ist, gilt hBt, Bsi = ht, si. Für die Darstellungsmatrix A := MB (f ) zur Basis B haben wir f (Bt) = BAt. Somit:
hf (Bt), Bsi = hBAt, Bsi = hAt, si = tAT s
hBt, f (Bs)i = hBt, BAsi = ht, Asi = tAs.
Damit ist f selbstadjungiert dann und nur dann, wenn A = AT .
Satz 14.43 (Hauptachsentheorem). Sei V ein euklidischer (unitärer) Vektorraum.
Ein Endomorphismus f : V → V ist selbstadjungiert genau dann, wenn es eine
Orthonormalbasis von V bestehend aus Eigenvektoren von f gibt.
5. Normalform selbstadjungierter Endomorphismen
187
Bevor wir Satz 14.43 beweisen, folgern wir:
Korollar 14.44. Eine komplexe, quadratische Matrix A ∈ Mn,n (C) ist genau dann
hermitesch, wenn es eine unitäre Matrix S ∈ Un (C) gibt, für die Diagonalmatrix
D := S −1 AS = S T AS reeell ist.
Im Gegensatz zu Korollar 14.37 auf Seite 185 sind die Diagonalelemente von D
stets reell. Im Falls A ∈ Mn,n (R) ist S ∈ On (R) eine orthogonale Matrix.
Beweis. Wir beweisen Korolllar 14.44. Sei A hermitesch. Wähle ein Orthonormalbasis b1 , . . . , bn von Cn bestehend aus Eigenvektoren der Matrix A, eine solche existiert
nach Satz 14.43. Setze
S := b1 b2 · · · bn ∈ Un (C).
Es gilt:

b1 T b1

S T AS = 
0

hb1 , b1 iC
 
..
=
.
T
bn bn
0
0

0
..
.
hbn , bn iC


 ∈ Mn,n (R).
Die Rückrichtung zeigt man analog.
Wir kommen zum Beweis von Satz 14.43:
Beweis. Der Endomorphismus f : V → V sei selbstadjungiert. Durch Induktion über
dim V konstruieren wir eine Orthonormalbasis von V bestehend aus Eigenvektoren
von f .
Sei λ1 eine Nullstelle des Charakteristischen Polynoms χf ∈ C[X] und v1 ∈ V
Eigenvektor zum Eigenwert λ1 , d.h. f (v1 )) = λ1 v1 und v1 6= 0. Es gilt:
λ1 hv1 , v1 i = hλ1 v1 , v1 i = hf (v1 ), v1 i .
Weil f selbstadjungiert ist, erhalten wir
λ1 hv1 , v1 i = hv1 , f (v1 )i = hv1 , λ1 v1 i = λ1 hv1 , v1 i ,
so dass λ1 reell ist. Setze
W := {w ∈ V | hv1 , wi = 0 } ⊆ V.
W ist offenbar ein Untervektorraum von V . Es gilt f (W ) ⊆ W , denn für w ∈ W ist:
hv1 , f (w)i = hf (v1 ), wi = hλ1 v1 , wi = λ1 hv1 , wi
Der Endomorphismus f : W → W ist gemäß Voraussetzung selbstadjungiert. Nach
Induktionsannahme gibt es eine Orthonormalbasis von W mit Eigenvektoren von
v1 liefert dies die gewünschte Orthonormalbasis von V .
f |W . Zusammen mit √ 1
hv1 ,v1 i
Für die Rückrichtung sei v1 , . . . , vn eine Orthonormalbasis von V , wobei vi Eigenvektor von f zum Eigenwert λi ist. Wegen
X
X
X
X
X
f
ti vi ,
si vi =
λi ti si =
ti vi , f
si vi
i
ist f selbstadjungiert.
i
i
i
i
188
14. Reelle und komplexe Vektorräume
Satz 14.45. Sei V ein euklidischer (unitärer) Vektorraum und f : V → V ein selbstadjungierter und invertierbarer Endomorphismus. Dann ist ist f −1 ebenfalls selbstadjungiert.
Beweis. Es gilt:
f −1 (v), f (w) = f f −1 (v), w = hv, wi .
Also f −1 (v), w = v, f −1 (w) , so dass f −1 selbstadjungiert ist.
Bezogen auf die Darstellungsmatrix gilt:
Korollar 14.46. Ist A ∈ GLn (C) hermitesch, so auch A−1 .
Satz 14.47 (Polarzerlegung). Sei A ∈ GLn (C). Dann gibt es eine eindeutige Zerlegung A = BC mit unitärer Matrix B ∈ Un (C) und positiv definiter, hermitescher
Matrix C ∈ Mn,n (C).
Beweis. Die Matrix AT A ist hermitesch, denn (AT A)T = AT A = AT A, ferner ist
AAT positiv definit:
xT (AT A)x = (Ax)T · ( Ax) ≥ 0.
Nach Korollar 14.44 gibt es ein S ∈ Un (C) mit
D := S T AT A S ∈ Mn,n (R).
Seien s1 , . . . , sn die Spaltenvektoren von S. S := {s1 , . . . , sn } ist eine Orthonormalbasis mit Eigenvektoren si von AAT zum Eigenwert λi > 0.
√
Definiere einen Endomorphismus f : Cn → Cn durch f (si ) := λi si . Es gilt
f (f (St)) = S(Dt), d.h.
MS (f ) = MS (f 2 ) = D.
Sei I die Basis bestehend aus den kanonischen Einheitsvektoren, der Basiswechsel
von S ist gegeben durch die Transformationsmatrix S −1 .
MI (f 2 ) = S · MS (f 2 ) · S −1 = SDS −1 = AT A.
Setze C := MI (f ) und B := AC −1 . Somit gilt A = BC.
denn
√ Dann ist C hermitesch,
√
die Darstellungsmatrix zur Orthogonalbasis S ist D mit Eigenwerten λi . Nach
Übungsaufgabe 22.1 ist C positiv definit. Zu zeigen bleibt, dass B unitär ist:
B −1 = CA−1 = C −1 C 2 A−1 = C −1 AT AA−1
T
= C −1 AT = AT (C −1 )T = ( A · C −1 )T
= (AC −1 )T = B T
Betrachten wir zum Abschluß die Eindeutigkeit der Zerlegung. Angenommen, A =
BC = B 0 C 0 mit unitären Matrizen B, B und hermiteschen Matrizen C, C 0 . Dann gilt:
C 2 = AT A = ( B 0 C 0 )T B 0 C 0 = C 0 T · B 0 T · B 0 C 0 = C 0 T · C 0 = (C 0 )2 ,
Offenbar stimmen die Eigenwerte und die Eigenvektoren von C, C 0 überein (benutze,
dass C, C 0 positiv definit ist). Dann gilt für die hermiteschen Matrizen C = C 0 .
5. Normalform selbstadjungierter Endomorphismen
189
Für reelle Matrizen lautet Satz 14.47:
Korollar 14.48. Sei A ∈ GLn (R). Dann gibt es eine eindeutige Zerlegung A = BC
mit orthogonaler Matrix B ∈ On (R) und positiv definiter, symmetrischer Matrix C.
Korollar 14.49. Sei A ∈ GLn (C). Dann gibt es eine eindeutige Zerlegung A = BC
mit unitärer Matrix B ∈ Un (C) und positiv definiter, hermitescher Matrix C.
Beweis. Wende Satz 14.47 an auf AT . Sei AT = BC die Polarzelegung mit unitärer
Matrix B ∈ Un (C) und positiv definiter, hermitescher Matrix C ∈ Mn,n (C). Aus den
Eigenschaften von B und C folgt:
A = C T · B T = CB −1 .
Wie die Ähnlichkeitsrelation von Seite 105 ist die im folgenden erklärte Kongruenzrelation eine Äquivalenzrelation auf der Menge der reellen (bzw. komplexen) n × nMatrizen:
Def inition 14.50 (Kongruente Matrizen). Zwei quadratische Matrizen A, B ∈ Mn,n (R)
oder Mn,n (C), heißen kongruent, A ≈ B, wenn es eine invertierbare Matrix T ∈
GLn (R) bzw. GLn (C) gibt mit
A = T T BT.
Der Nachweis, dass diese Relation eine Aquivalenzrelation ist, führt man wie den
entsprechende Beweis für die Ähnlichkeitsrelation in Satz 10.2 auf Seite 105.
Def inition 14.51 (Trägheitsindex). Der Trägheitsindex einer hermiteschen Matrix
A ∈ Mn,n (C) ist die mit Vielfachheit gezählte Anzahl t(A) der positiven Eigenwerte
von A.
Satz 14.52 (Trägheitssatz von Sylvester). Seien A, B ∈ Mn,n (R) oder Mn,n (C).
Genau dann sind A, B kongruent, wenn ihre Ränge und Trägheitsindizes übereinstimmmen:
A≈B
⇐⇒
rang A = rang B und t(A) = t(B).
Wir beweisen den Trägheitssatz von Sylvester für den Fall komplexer Matrizen.
Wir beginnen zunächst mit einem Lemma:
Lemma 14.53. Sei A ∈ Mn,n (C). Dann gilt für den Trägheitsindex von A:
V ist ein Untervektorraum von Cn , so
t(A) = max dim V dass xT Ax positiv definit auf V ist.
Beweis. Wir zeigen zunächst die ≥“-Ungleichung. Seien v1 , . . . , vt(A) linear un”
abhängige Eigenvektoren von A zu positiven Eigenwerten. Dann ist xT Ax positiv
definit auf span(v1 , . . . , vt(A) ).
Für den Beweis der ≤“-Relation führen wir die Annahme dim V > t(A) zum Wi”
derspruch. Sei v1 , . . . , vn eine Basis von Cn aus Eigenvektoren von A zu Eigenwerten
190
14. Reelle und komplexe Vektorräume
λ1 , . . . , λn ∈ R (nach Satz 14.43 auf Seite 186). O.B.d.A. gelte
λ1 , . . . , λt(A) > 0
λt(A)+1 , . . . , λr < 0
λr+1 , . . . , λn = 0.
Wegen dim V > t(A) gibt es ein w ∈ V ∩ span(v1 , . . . , vt(A) )⊥ , w 6= 0, mit der
P
Darstellung w = ni=t(A)+1 ti vi .
wT Aw =
n
X
ti ti λi < 0.
i=t(A)+1
Also ist
xT Ax
nicht positiv definit auf V — Widerspruch.
Kongruente Matrizen haben den gleichen Trägheitsindex, denn die rechte Seite
in Lemma 14.53 ändert sich nicht: Genau dann ist xT Ax positiv definit auf V , wenn
xT T T AT x positiv definit auf T (V ) ist:
Korollar 14.54. Sei A ∈ Mn,n (C) und T ∈ GLn (C). Dann gilt:
t(A) = t(T T AT ).
Aus Korollar 14.54 folgt bereits eine Implikation des Trägheitssatzes von Sylvester: Sind die Matrizen A, B kongruent, so stimmen ihre Ränge und Trägheitsindizes
überein. Sei umgekehrt
t(A)






rang A 




+1
..

0
.
+1
−1
..
.
−1
0
0
..
.
0





 ≈ A.




Man vertausche und normiere die Eigenwerte der Diagonalmatrix D nach Korollar
14.44 auf Seite 187. Stimmen Ränge und Trägheitsindizes überein, also rang A =
rang B und t(A) = t(B), gilt A ≈ B. Damit ist der Trägheitssatz von Sylvester
bewiesen.
Zum Abschluß betrachten wir die Zerlegung eines reellen Vektorraums V bezüglich
einer symmetrischen Bilinearform s : V × V → R. Sei
• V 0 := N(s) = {v ∈ V | s(v, ·) ist Nullabbildung } der Nullraum.
• V + ⊆ V Unterraum max. Dimension, so dass s positiv definit auf V + ist.
• V − ⊆ V Unterraum max. Dimension, so dass s negativ definit auf V − ist.
Satz 14.55. Es gilt V = V 0 ⊕ V + ⊕ V − .
Beweis. O.B.d.A. sei V = Rn . Sei s(v, w) = v T Aw und A symmetrisch. Dann gilt
A ≈ D ∈ {±1, 0}n×n . Der Satz gilt offenbar für D.
Kapitel 15
Endliche Körper
In diesem Kapitel charakterisieren wir endliche Körper. Wir zeigen, dass jeder endliche Körper pn Elemente hat, wobei p eine Primzahl und n eine natürliche Zahl ist.
Umgekehrt geben wir ein Verfahren an, um zu jeder gegebenen Primzahl p und jedem
n ∈ N einen Körper mit pn Elementen konstruiert. Ferner betrachten wir in Abschnitt
4 die Struktur der multiplikativen Gruppe endlicher Körper.
Zur Erinnerung: Wir kennen bereits eine spezielle Klasse endlicher Körper: In
Satz 2.28 auf Seite 27 haben wir gezeigt, dass der Ring Zn der Restklassen modulo n
genau dann ein Köper ist, wenn n prim ist. Damit haben wir bereits endliche Körper
mit p Elementen kennengelernt.
1. Charakteristik
Sei K ein Körper. Wir führen folgenden Notation ein:
0 · 1 = 0,
n · 1 = 1| + 1 +
{z· · · + 1},
(−n) · 1 = −(n · 1),
n∈N
n-mal
Dabei ist 1 das multiplikative neutrale Element und + die Addition in K. Die Notation
n · 1 sollte dabei nicht mit der Multiplikation n · 1 = n im Körper verwechselt werden.
Schreiben wir folgenden n · 1, so ist stets die hier eingeführte Notation gemeint.
Man verifiziert leicht mittels der Körperaxiome, dass die folgenden Rechenregeln
für alle m, n ∈ Z gelten:
(mn) · 1 = (m · 1)(n · 1),
(m + n) · 1 = (m · 1) + (n · 1)
(40)
Wir können die Notation n · 1 formal als Abbildung ϕK : Z → K mit ϕK (n) = n · 1
auffassen. Diese Abbildung ist gemäß der Eigenschaften (40) ein Ringhomomorphismus.
191
192
15. Endliche Körper
Def inition 15.1 (Charakteristik). Sei K ein Körper. Die Charakteristik von K ist
definiert durch:
(
0
n · 1 6= 0 für alle n ∈ N
char K =
min {n ∈ N | n · 1 = 0 } sonst.
Es gilt beispielsweise char R = 0 und char Zp = p. Für Körper mit Charakteristik
0 sind alle Werte n · 1 verschieden, denn aus m · 1 = n · 1 für m ≤ n folgt
0 = (n · 1) − (m · 1) = (n − m) · 1,
doch dies ist nach Definition der Charakteristik nur für m = n möglich. Insbesondere
zeigt dies, dass der Homomorphismus ϕK für Körper K mit char K = 0 injektiv ist.
Ferner erhalten wir, dass die Charakteristik eines endlichen Körpers stets verschieden
von 0 ist. Andererseits gibt es unendliche Körper, deren Charakteristik ungleich 0 ist
(beispielsweise hat Zp (x), der kleinste Körper, der alle Polynome in der Variablen x
mit Koeffizienten aus Zp enthält, unendlich viele Elemente, aber die Charakteristik
p).
Die Beispiele R und Zp sind Körper mit Charakteristik 0 bzw. primer Charakteristik. Der folgende Satz zeigt, dass die Charakteristik nur diese Werte annimmt:
Satz 15.2. Sei K ein Körper. Dann ist char K entweder 0 oder prim.
Beweis. Sei char K = n = ab für a, b, n ∈ N mit 1 < a, b < n. Dann gilt
0 = n · 1 = (ab) · 1 = (a · 1)(b · 1).
Da der Körper K nullteilerfrei ist, folgt a · 1 = 0 oder b · 1 = 0 und somit ein
Widerspruch zur Minimalität von n.
n
Wir betrachten die Frobenius-Abbildung σp,n : K → K mit x 7→ xp in Körpern mit
Charakteristik p 6= 0. Der folgende Satz zeigt, dass die Abbildung in diesen Körpern
homomorph ist.
Satz 15.3. Sei K ein Körper mit char K = p 6= 0. Dann ist die Frobenius-Abbildung
σp,n für alle n ∈ N ein Ringhomomorphismus, d.h. für alle x, y ∈ K gilt:
n
σp,n (x + y) = (x + y)p
n
σp,n (xy)
=
(xy)p
n
n
= xp + y p
n
n
=
xp y p
= σp,n (x) + σp,n (y)
=
σp,n (x)σp,n (y)
Beweis. Die multiplikative Formel ist offensichtlich. Wir betrachten die additive Eigenschaft zunächst für den Fall n = 1. Nach der binomischen Formel gilt:
p−1 X
p
· 1 xk y p−k + y p
(x + y)p = xp +
k
k=1
Da p! = kp k!(p − k)! über Z und keiner der Faktoren
k! und (p − k)! für 1 ≤ k, p − k ≤
p
p−
1 von der Primzahl p geteilt wird, muß k durch p teilbar sein. Dann ist aber
p
k · 1 = 0 in K nach Definition der Charakteristik für alle k = 1, . . . , p − 1 und daraus
folgt (x + y)p = xp + y p . Für den Fall n > 1 wende man n-mal z 7→ z p an.
2. Primkörper
193
2. Primkörper
In diesem Abschnitt geben wir eine äquivalente Betrachtung der Charakteristik an.
Dazu führen wir die Definition des Primkörpers eines Köpers K ein. Der Primkörper
ist der kleinste Unterkörper von K:
Def inition 15.4 (Primkörper). Sei K ein Körper. Dann heißt
\
L
P (K) =
L ist Unterkörper von K
der Primkörper von K.
Dabei haben wir die — leicht überprüfbare — Eigenschaft verwendet, dass der
Durchschnitt von Unterkörpern wieder ein Unterkörper ist.
Satz 15.5. Sei K ein Körper. Dann gilt:
a) char K = 0 genau dann, wenn P (K) ∼
= Q.
b) char K = p 6= 0 genau dann, wenn P (K) ∼
= Zp .
Beweis. Wir zeigen die vier Implikationen:
(1) char K = 0 ⇒ P (K) ∼
=Q
Der Körper P (K) enthält mit 1 auch alle Summen n · 1 sowie die multiplikativen Inversen (n · 1)−1 für n ∈ Z \ {0}. Folglich ist
L := (m · 1)(n · 1)−1 m, n ∈ Z, n 6= 0 ⊆ P (K)
Wir wissen bereits, dass der Homomorphismus ϕK :Z →
= n·1
K mit ϕK (n) injektiv ist. Dann ist aber offensichtlich L ∼
= Q = ab a, b ∈ Z, b 6= 0 und
damit L Körper. Folglich ist auch P (K) ⊆ L, da der Primkörper der kleinste
Unterkörper von K ist, und somit P (K) = L ∼
= Q.
∼
(2) char K = p 6= 0 ⇒ P (K) = Zp
Offensichtlich ist
L := {n · 1 | n ∈ Z } = {n · 1 | n ∈ {0, 1, . . . , p − 1} }
∼ Zp . Wie im ersten
und wegen der Homomorphieeigenschaft von ϕK gilt L =
∼
Fall folgt P (K) = L = Zp .
(3) P (K) ∼
= Q ⇒ char K = 0
Angenommen, es wäre char K = p 6= 0. Dann wäre P (K) ∼
= Zp nach 2
und somit nicht isomorph zu Q.
(4) P (K) ∼
= Zp ⇒ char K = p 6= 0
Folgt wie im vorigen Fall: Angenommen, es wäre char K = 0. Dann wäre
P (K) ∼
= Q nach 1 und somit nicht isomorph zu Zp .
Als einfache Folgerung erhalten wir, dass char L = char K für jeden Unterkörper L
von K, da die Primkörper P (L), P (K) nach Definition eines Primkörpers identisch
sind.
Wir kommen damit zum ersten Teilresultat über endliche Körper:
194
15. Endliche Körper
Satz 15.6. Sei K ein endlicher Körper. Dann gilt |K| = (char K)n = pn für eine
Primzahl p und ein n ∈ N.
Beweis. Wir betrachten K als Vektorraum über seinem Primkörper P (K): Die Addition zwischen Vektoren v, w ∈ K ist durch die Addition im Körper K definiert. Ebenso
ist die Skalarmultiplikation λv für λ ∈ P (K) und v ∈ K durch die Multiplikation in
K erklärt. Man überprüft leicht, dass die Vektorraumaxiome erfüllt sind, da (K, +)
eine abelsche Gruppe ist und (λ + µ)v = λv + µv, λ(v + w) = λv + λw, (λµ)v = λ(µv)
sowie 1 · v = v aus den Körperaxiomen folgen.
Da der Vektorraum K endlich ist, gibt es eine (endliche) Basis b1 , . . . , bn ∈ K für
ein n ∈ N. Jedes v ∈ K hat damit eine eindeutige Darstellung
v=
n
X
λ i bi ,
λ1 , . . . , λn ∈ P (K)
i=1
Folglich hat K genau so viele Elemente, wie es Tupel (λ1 , . . . , λn ) mit λ1 , . . . , λn ∈
P (K) gibt. Da K endlich ist, ist P (K) ∼
= Zp für eine Primzahl p = char K, und daraus
folgt die Behauptung.
3. Konstruktion endlicher Körper
In diesem Abschnitt zeigen wir, wie man zu gegebener Primzahl p und gegebenem
n ∈ N einen endlichen Körper mit pn Elementen konstruiert.
Zur Erinnerung: Für einen Körper K ist K[X] der Ring der Polynome in X mit
Koeffizienten aus K, die Elemente K werden als konstante Polynome in K[X] eingebettet. Analog zu Z haben wir bereits in Kapitel 4 die Restklassenkonstruktion
von Polynomen im Ring K[X] kennengelernt. Zur Wiederholung betrachten wir ein
Beispiel:
Beispiel 15.7. Wir betrachten Z2 = {0, 1} und das Polynom p(X) = X 2 + X + 1 ∈
Z2 [X]. Wegen X 2 ≡ −X − 1 mod p(X) sind die Restklassen die Polynome mit Grad
maximal 1. So ist beispielsweise
X 3 ≡ X · X 2 ≡ X(−X − 1) ≡ −X 2 − X ≡ X + 1 − X ≡ 1 mod p(X)
Für diesen Restklassenring schreiben wir:
Z2 [X]/(p(X)) = {0, 1, X, X + 1}.
Es gilt X(X + 1) ≡ X 2 + X ≡ −1 mod p(X) und da −1 = 1 in Z2 , sind X und X + 1
zueinander invers. Tatsächlich ist damit Z2 [X]/(p(X)) ein Körper mit 4 Elementen.
Wir wissen, dass Zn = Z/nZ die Restklassen modulo n sind, die wir durch die
Zahlen 0, 1, . . . , n−1 repräsentieren können. Im Fall K[X]/(p(X)) sind die Restklassen
die Polynome mit Grad kleiner als deg p(X). Ferner ist K[X] wie Z ein Integritätsring
und es exisitiert Division mit Rest. Wir können daher die Restklassenbildung in K[X]
durch Vergleich zu Zn motivieren. Wir haben gezeigt, dass Zn genau dann ein Körper
ist, wenn n ∈ N prim ist. Zur Erinnerung:
3. Konstruktion endlicher Körper
195
Eine Zahl n ∈ N \ {1} ist genau dann prim, wenn n|ab nur für n|a
oder n|b möglich ist.
Dabei wird die Zahl 1 als Spezialfall (sogenannte Einheit) per Definition ausgeschlossen. Die aus der Schulmathematik bekannte Eigenschaft, dass Primzahlen die Zahlen
sind, die nur 1 und sich selbst als Teiler besitzen, heißt in der Algebra Irreduzibilität:
Eine Zahl n ∈ N \ {1} heißt irreduzibel, wenn n = ab nur für a = 1
oder b = 1 möglich ist.
Da in N die Primzahlen genau die irreduziblen Zahlen sind, sind in diesem Fall beide
Definitionen äquivalent.
Wir übertragen den Begriff der Irreduzibilität auf den Ring K[X]. Dabei spielen
die Elemente K in K[X] die Rolle der Eins in N:
Def inition 15.8 (Irreduzibles Polynom). Sei K ein Körper. Ein nicht-konstantes
Polynom p(X) ∈ K[X] heißt irreduzibel über K, wenn p(X) = a(X)b(X) nur für
a(X) ∈ K oder b(X) ∈ K möglich ist.
Beispielsweise sind Polynome vom Grad 2 oder 3 genau dann irreduzibel über
K, wenn sie keine Nullstelle in K besitzen (Übung). Für Polynome vom Grad 4 oder
höher gilt dies im allgemeinen nicht, z.B. ist das Polynom X 4 + 2X + 1 = (X 2 + 1)2
über den reellen Zahlen R nicht irreduzibel, obwohl es keine reelle Nullstelle besitzt.
Der Begriff eines Primpolynoms läßt sich auf offensichtliche Weise auf dem Ring
K[X] definieren, und wie in N folgt, dass die Primpolynome in K[X] genau die irreduziblen Polynome sind. Analog zu Zp gilt:
Fakt 15.9. Sei K ein Körper. Dann ist K[X]/(p(X)) genau dann ein Körper, wenn
p(X) irreduzibel über K ist.
Eine wichtige Eigenschaft dieses Körpers K[X]/(p(X)) ist, dass das Polynom p(X)
darin die Nullstelle λ := X mod p(X) (Restklasse von X) besitzt, denn
p(λ) ≡ p(X mod p(X)) ≡ p(X) ≡ 0 mod p(X)
Beachte, dass wir bei Nullstellenbetrachtungen Werte in das Polynom einsetzen und
das Polynom auswerten, während wir beispielsweise bei der Restklassenkonstruktion
das Polynom als formales Objekt ansehen.
Beispiel 15.10. Wir betrachten R[X]/(X 2 + 1) = {a + bX | a, b ∈ R }. Die Nullstelle
X mod X 2 + 1 nennen wir in diesem Fall i, so dass
i2 ≡ X 2 ≡ −1 mod X 2 + 1
Der Ring R[X]/(X 2 + 1) entspricht nämlich den komplexen Zahlen C, und wir haben
die imaginäre Einheit als Nullstelle des irreduziblen Polynoms X 2 + 1 eingeführt. Die
Polynommultiplikation
(a + bX)(c + dX) ≡ ac + (ad + bc)X + bdX 2
≡ (ac − bd) + (ad + bc)X mod X 2 + 1
entspricht (ebenso wie die Polynomaddition) der in Abschnitt 1 auf Seite 16 per
Definition festgelegten Multiplikation (bzw. Addition) in den komplexen Zahlen (mit
i statt X).
196
15. Endliche Körper
Im Körper K[X]/(p(X)) hat das Polynom p(X) eine Nullstelle λ (mit Vielfachheit
n). Wenn wir diese Nullstelle abspalten p(X) = (X − λ)n q(X), erhalten wir ein
Polynom q(X) in diesem Körper, das wir in irreduzible Faktoren q1 (X), . . . , qm (X)
zerlegen können. Für den Faktor q1 (X) bilden wir den Restklassenkörper, in dem
q1 (X) und damit auch p(X) eine weitere Nulltelle hat. Wenn wir dieses Verfahren
iterieren (und zwar maximal deg p(X)-mal), erhalten wir einen Körper, in dem p(X)
vollständig in Linearfaktoren X − λi zerfällt. Dieser Körper ist bis auf Isomorphie
eindeutig bestimmt und heißt Zerfällungskörper :
Def inition 15.11 (Zerfällungskörper). Sei K ein Körper und p(X) ∈ K[X]. Der
Zerfällungskörper von p(X) über K ist der kleinste Körper Z ⊇ K, in dem p(X)
vollständig in Linearfaktoren zerfällt:
p(X) = c · (X − λ1 ) · · · (X − λn ) ∈ Z[X]
mit c ∈ K, λ1 , . . . , λn ∈ Z, n = deg p(X).
Wir haben uns oben überlegt, dass jedes irreduzible Polynom einen Zerfällungskörper besitzt. Tatsächlich hätten wir bei der Konstruktion bereits mit einem nicht
irreduziblen Polynom starten können, indem wir dieses Polynom zunächst in irreduzible Faktoren zerlegt hätten. Wir erhalten:
Satz 15.12. Sei K ein Körper. Für jedes Polynom p(X) ∈ K[X] existiert der Zerfällungskörper.
√
√ Beispielsweise ist Q( 2) = a + b 2 a, b ∈ Q der Zerfällungskörper des Poly√
√
noms X 2 − 2 = (X + 2)(X − 2).
Wir kommen zur Konstruktion eines endlichen Körpers mit pn Elementen für
gegebene p, n. Ausgehend von einem Körper mit Charakteristik p (beispielsweise Zp )
n
konstruieren wir einen geeigneten Unterkörper des Zerfällungskörpers von X p − X:
Satz 15.13. Sei K ein Körper mit char K = p 6= 0, n ∈ N und Z der Zerfällungskörpers
n
des Polynoms q(X) = X p − X ∈ K[X] über K. Dann ist
n
L = {a ∈ Z | q(a) = 0 } = a ∈ Z ap = a
ein Unterkörper von Z mit pn Elementen.
Beweis. Wir zeigen, dass L ein Unterkörper von Z ist. Wegen char Z = char K = p
n
ist die Frobenius-Abbildung σp,n mit σp,n (a) = ap ein Homomorphismus auf Z. Wir
überlegen uns zunächst, dass mit b ∈ L auch −b ∈ L ist. Für p = 2 ist dies klar, da
1 + 1 = 0 = 1 − 1, d.h. −1 = 1 und −b = (−1)b = b. Sei p > 2 und damit pn ungerade.
n
n
n
Dann ist (−b)p = (−1)p bp = (−1)b = −b und damit −b ∈ L. Wir beweisen damit
das Unterkörperkriterium, dass mit a, b auch a − b und ab−1 (für b 6= 0) in L liegen:
n
n
n
(a − b)p = ap + (−b)p = a − b
n
n
n −1
(ab−1 )p = ap bp
= ab−1
Offensichtlich ist 1 ∈ L. Daraus folgt nach Satz 2.6 auf Seite 19, dass L ein Unterkörper
von Z ist.
3. Konstruktion endlicher Körper
197
Bleibt zu zeigen, dass L genau pn Elemente hat. Da das Polynom q(X) vom Grad
im Integritätsbereich Z[X] maximal pn Nullstellen haben kann, folgt die obere
Schranke |L| ≤ pn . Es genügt daher zu zeigen, dass die Nullstellen von q(X) alle
verschieden sind. Dazu verwenden wir folgendes Fakt, dass wie hier nicht beweisen
werden:
pn
Fakt 15.14. Seien g(X), h(X) ∈ K[X] teilerfremd in K[X], d.h. f (X)|g(X) und
f (X)|h(X) ist nur für f (X) ∈ K möglich,1, dann sind g(X) und h(X) auch in Z[X]
teilerfremd.
Um dieses Fakt anzuwenden, führen wirPdie symbolische (oder P
auch algebraische)
n
i
0
Ableitung eines Polynoms ein: Zu h(X) = i=0 hi X sei h (X) = ni=1 (i · 1)hi X i−1 .
Es gilt die aus der Analysis bekannte Rechenregel (gh)0 (X) = g 0 (X)h(X)+g(X)h0 (X).
Angenommen, q(X) hat eine mehrfache Nullstelle λ mit Vielfachheit m ≥ 2 in Z:
q(X) = (X − λ)m r(X)
Dann ist in Z[X] einerseits
q 0 (X) = (m · 1)(X − λ)m−1 r(X) + (X − λ)m r0 (X),
und in K[X] wegen char K = p andererseits
n −1
q 0 (X) = (pn · 1)X p
− 1 = −1.
Insbesondere sind q(X) und q 0 (X) in K[X] teilerfremd (da nur konstante Polynome
das Polynom q 0 (X) = −1 teilen), also auch in Z[X]. In Z[X] haben beide Polynome
wegen m ≥ 2 allerdings den gemeinsamen Teiler X − λ, und wir erhalten einen
Widerspruch. Folglich hat q(X) keine mehrfachen Nullstellen und es gilt |L| ≥ pn . n
n
Der Frobenius-Homomorphismus σp,n ist auf L bijektiv: Aus xp = y p erhalten wir
n
1 = (xy −1 )p = xy −1 und damit x = y. Folglich ist σp,n auf L injektiv und — da
injektive Abbildung zwischen endlichen Mengen gleicher Mächtigkeit stets bijektiv
sind — sogar ein Automorphismus auf L.
Ohne Beweis geben wir einige weitere Eigenschaften endlicher Körper an [FS78,
W96]:
Fakt 15.15. Sei K ein endlicher Körper mit pn Elementen, p prim, n ∈ N. Dann
gilt
a) Jeder Körper L mit pn Elementen ist isomorph zu K.
b) Die Unterkörper von K sind (bis auf Isomorphie) genau die Körper mit pm
Elementen für m|n.
c) Es gilt P (K) ∼
= Zp und char K = p.
1Der Teilbarkeitsbegriff überträgt sich unmittelbar von Z auf Polynomringe: Ein Polynom a(X)
teilt ein Polynom b(X), wenn bei Division mit Rest b(X) = q(X)a(X) + r(X) der Rest r(X) das
Nullpolynom ist.
198
15. Endliche Körper
4. Struktur der multiplikativen Gruppe
endlicher Körper
In diesem Abschnitt betrachten wir die Struktur der multiplikativen Gruppe K∗ :=
K\{0} endlicher Körper K. Wir zeigen, dass diese Gruppe zyklisch ist, d.h. es gibt ein
Gruppenelement, so dass die Potenzen dieses Elements bereits die gesamte Gruppe
durchlaufen. Wir beginnen mit einem Beispiel:
Beispiel 15.16. Wir betrachten den Körper
F4 = Z2 [X]/(X 2 + X + 1) = {0, 1, X, X + 1}.
Diesen Körper haben wir bereits in Beispiel 15.7 in Abschnitt 3 kennengelernt. Die
Elemente X und X + 1 sind zueinander invers.
Die multiplikative Gruppe F∗4 = {1, X, X + 1} besteht aus 3 Elementen. Die
Ordnung eines Elements a einer endlichen Gruppe (G, ·) ist definiert durch:
ordG a = min {n ∈ N | an = 1 } ,
wobei an das n-fache Produkt von a in G ist. In unserem Fall:
ordF∗4 1
= 1,
= 3,
da
X 2 ≡ −X − 1 ≡ X + 1 mod X 2 + X + 1
X 3 ≡ X · X 2 ≡ X(X + 1) ≡ 1 mod X 2 + X + 1
ordF∗4 X + 1 = 3,
da
(X + 1)2 ≡ X 2 + 2X + 1 ≡ X mod X 2 + X + 1
(X + 1)3 ≡ (X + 1)(X + 1)2 ≡ 1 mod X 2 + X + 1
ordF∗4 X
Es gilt daher F∗4 = {X 0 , X 1 , X 2 } = {(X + 1)0 , (X + 1)1 , (X + 1)2 }.
Allgemeiner nennt man eine Gruppe, die von einem Element erzeugt wird, zyklisch.
Wir definieren zunächst die Ordnung eines Elementes formal:
Def inition 15.17 (Ordnung eines Elementes). Für eine Gruppe (G, ·) heißt
(
0
an 6= 1 für alle n ∈ N
ordG a =
min {n ∈ N | an = 1 } sonst
die Ordnung des Elementes a in G.
Geht die Gruppe G aus dem Kontext hervor, schreiben wir abkürzend ord a statt
ordG a.
Def inition 15.18 (Zyklische Gruppe). Eine Gruppe (G, ·) heißt zyklisch, wenn es
ein primitives (oder auch erzeugendes) Element g ∈ G mit
hgi := {g 0 , g 1 , g 2 , g 3 , . . . } = G
gibt. Das Element g nennt man auch Generator.
Wir überlegen uns, dass für ein Element a einer zyklischen Gruppe die Elemente
a0 , a1 , . . . , an−1 mit n = ord a verschieden sind. Angenomen, es wäre ai = aj für
0 ≤ i < j < n. Dann wäre aj−i = 1 für 1 ≤ j − i < n im Widerspruch zur Minimalität
4. Struktur der multiplikativen Gruppe endlicher Körper
199
von n. Insbesondere bedeutet dies, dass die Ordnung eines Elementes einer endlichen
Gruppe höchstens die Anzahl der Elemente der Gruppe sein kann.
Beispiel 15.19. Wir betrachten die multiplikative Gruppe Z∗5 := {1, 2, 3, 4} des endlichen Körpers Z5 . Diese ist eine zyklische Gruppe, die von 2 erzeugt wird:
20 = 1 mod 5
21 = 2 mod 5
22 = 4 mod 5
23 = 2 · 22 = 3 mod 5.
Es gilt h2i = Z∗5 . Auch 3 ist ein Generator der Gruppe Z∗5 , 4 ist hingegen kein primitives Element der Gruppe.
Unser Ziel ist es, zu zeigen, dass die multiplikative Gruppe K∗ endlicher Körper
K stets zyklisch ist. Dazu benötigen wir folgende Fakten über die Ordnung von Elementen:
Fakt 15.20. Sei G eine multiplikative Gruppe. Dann gilt für a, b ∈ G:
• Wenn m| ord a, dann ist ord am =
ord a
m .
• Wenn ord a, ord b teilerfremd sind, dann ist ord(ab) = ord a · ord b.
Den ersten Punkt des Faktes können wir mit unserem Wissen bereits beweisen:
a
m n
ord a = 1 und somit ord am ≤
Zur Abkürzung sei n = ord
m . Offensichtlich ist (a ) = a
n. Angenommen, es wäre t = ord am < n. Dann wäre (am )t = amt = 1 und folglich
ord a ≤ mt < ord a, Widerspruch. Auf den Beweis der zweiten Eigenschaft verzichten
wir hier.
Das folgendes Lemma bereitet die zentrale Aussage dieses Abschnitts vor:
Lemma 15.21. Sei G eine endliche Gruppe und m = max {ord a | a ∈ G }. Dann
gilt bm = 1 für alle b ∈ G.
Beweis. Sei a ein Element mit ord a = m. Ferner sei b ein beliebiges Element mit
ord b = n. Wir betrachten die (eindeutige) Primfaktorzerlegung von m und n:
m=
k
Y
i
pm
i ,
n=
i=1
k
Y
pni i ,
mi , n i ≥ 0
i=1
wobei p1 , . . . , pk prim sind. Setze
r=
k
Y
i
pm
i ,
i=1
mi <ni
s=
k
Y
pni i
i=1
mi ≥ni
so dass wegen r| ord a und s| ord b nach Fakt 15.20 die Ordnungen
k
Y
m
i
ord a =
=
pm
i ,
r
r
i=1
mi ≥ni
k
Y
n
ord b = =
pni i
s
s
i=1
mi <ni
200
15. Endliche Körper
teilerfremd sind. Es folgt:
r s
r
s
ord(a b ) = ord a · ord b =
k
Y
max{mi ,ni }
pi
i=1
Da m maximal ist, ergibt sich ni ≤ mi für alle i = 1, . . . , k, denn sonst wäre ar bs
ein Element mit Ordnung größer als m. Wir erhalten n|m und somit bm = (bn )m/n =
1.
Satz 15.22. Sei K ein endlicher Körper. Dann ist die multiplikative Gruppe (K∗ , ·)
zyklisch.
Beweis. Sei m = max {ord a | a ∈ K∗ }. Nach Lemma 15.21 ist damit bm = 1 für
alle b ∈ K∗ , d.h. das Polynom X m − 1 hat mindestens |K∗ | Nullstelllen und daher
ist m ≥ |K∗ |. Andererseits ist m ≤ |K∗ |, da alle Elemente a0 , a1 , . . . , am−1 für ein
a mit ord a = m verschieden sind. Folglich gibt es ein g mit Ordnung ord g = m =
|K∗ |, so dass die (verschiedenen) Elemente g 0 , g 1 , . . . , g m−1 die gesamte Gruppe K∗
durchlaufen.
Kapitel 16
Gittertheorie
Wir haben Gitter bereits in Kapitel 7 auf Seite 76 definiert. In diesem Kapitel
beschäftigen wir uns intensiver mit Gittern und lernen Reduktionsbegriffe kennen.
1. Gitter
Wir betrachten den Rn mit dem kanonischen Skalarprodukt
h·, ·i : Rn × Rn → R mit
p
hu, vi = uT v und der euklidischen Norm kuk = hu, ui.
Def inition 16.1 (Gitter). Zu linear unabhängigen Vektoren b1 , . . . , bm ∈ Rn heißt
(m
)
X
L(b1 , . . . , bm ) :=
ti b i t i ∈ Z ⊂ R n
i=1
das Gitter mit Basis b1 , . . . , bm und Rang m.
Beispiel 16.2. Zu A ∈ Mm,n (R) ist Lös(A, 0) ∩ Zn = {x ∈ Zn | Ax = 0 } ein Gitter
vom Rang n − rang A.
Ein Gitter (Lattice) L(b1 , . . . , bm ) ⊆ span(b1 , . . . , bm ) ist das diskrete Analogon zu
R-Vektorräumen. Ein Gitter L ⊆ Rn ist eine additive Untergruppe des Rn . Was
bedeutet, dass L diskret ist?
Lemma 16.3. Sei L ⊆ Rn eine additive Untergruppe. Dann sind folgende Aussagen
äquivalent:
a) L hat keinen Häufungspunkt im Rn .
b) Für alle r > 0 ist die Menge {x ∈ L : kxk ≤ r} endlich.
Eine additive Untergruppe L ⊆ Rn mit diesen Eigenschaften heißt diskret. Gitter sind
genau die additiven Untergruppen des Rn :
Satz 16.4. Sei L ⊆ Rn eine additive Untergruppe, dann sind folgende Aussagen
äquivalent:
a) L ist ein Gitter.
201
202
16. Gittertheorie
b) L ist diskret.
Beweis. Für die Implikation a)⇒b)“ sei L := L(b1 , . . . , bm ) ein Gitter mit Basis
”
b1 , . . . , bm . Sei ϕ : Rm → span(b1 , . . . , bm ) der Vektorraum-Isomorphismus mit
m
X
ti b i .
ϕ(t1 , . . . , tm ) :=
i=1
ϕ(Zm )
Zm
Es gilt
= L. Offenbar ist
L ⊆ span(L) ebenfalls diskret ist.
⊆
Rm
diskret und weil ϕ−1 stetig ist, folgt, dass
Umgekehrt sei L ⊆ Rn eine diskrete, additive Untergruppe. Setze m := dim span(L).
Wir konstruieren eine Basis b1 , . . . , bn durch Induktion über m:
• Verankerung für m = 1: Wähle einen kürzesten Vektor b1 ∈ L \ {0}. Dann
gilt L = L(b1 ). Denn angenommen, es gäbe einen Vektor b ∈ L \ L(b1 ).
Wegen span(b) = span(b1 ) gibt es ein t ∈ R \ Z mit b = tb1 . Dann ist auch
b0 := b − bte · b1 ∈ L, wobei bte := dt − 21 e die nächste, ganze Zahl zu t
bezeichnet. Es gilt b0 = t0 b1 6= 0 mit 0 < |t0 | ≤ 21 , also
0
b = |t0 | · kb1 k ≤ 1 kb1 k ,
2
ein Widerspruch zur Wahl von b1 mit minimaler Länge.
• Induktionsschluß von m − 1 auf m: Wegen m = dim span(L) gibt es im
Raum span(L) lineare unabhängige Vektoren v1 , . . . , vm . Nach Induktionsvoraussetzung ist
L0 := L ∩ span(v, . . . , vm−1 )
0
ein Gitter
Pmvom Rang m − 1. Sei b1 , . . . , bm−1 eine Basis des Gitters L . Wähle
bm := i=1 ti vi ∈ L mit minimalem tm > 0. Weil L diskret ist, gibt es ein
solches tm . Es folgt L = L(b1 , . . . , bm ).
Def inition 16.5 (Basis, Gram-Matrix, Gitterdeterminante). Sei L := L(b1 , . . . , bm ) ⊆
Rn ein Gitter. Dann ist
B := b1 · · · bm ∈ Mn,m (R)
eine Basismatrix zu L und wir schreiben L = L(B). Die m × m-Matrix B T B heißt
1
Gram-Matrix von B und det L := det(B T B) 2 die Determimante von L.
Wir zeigen, dass Rang und Determinante von L von der Wahl der Basis unabhängig
sind:
Lemma 16.6. Sei B eine Basismatrix zum Gitter L ⊆ Rn vom Rang m und B 0
eine Basismatrix zum Gitter L0 ⊆ Rn vom Rang m0 . Dann sind folgende Aussagen
äquivalent:
a) Beide Gitter sind gleich: L = L0 .
b) Es ist m = m0 und es existiert eine ganzzahlige, unimodulare Matrix
T ∈ GLm (Z) = {U ∈ Mm,m (Z) | det U = ±1 }
mit
B0
= BT .
1. Gitter
203
Beweis. Betrachten wir die Implikation a)⇒b)“. Wegen L = L0 gilt m = m0 . Aus
”
L0 ⊆ L folgt m0 ≤ m. Insbesondere ist jeder Spaltenvektoren von B 0 ein Gittervektor
von L, d.h. eine ganzzahlige Linearkombination der Spalten von B. Es existert eine
ganzzahlige Matrix T ∈ Mm,m (Z) mit B 0 = BT :
m = m0 = rang B 0 = rang(BT ) ≤ T ≤ m.
Also gilt rang T = m und die ganzzahlige Matrix T ist invertierbar:
B 0 T −1 = B.
Aus Symmetriegründen (d.h. L0 ⊇ L) ist T −1 eindeutig bestimmt und ganzzahlig,
somit | det T | = 1. Die Rückrichtung ist offensichtlich.
Nach Lemma 16.6 haben Basismatrizen eines Gitters denselben Rang. Betrachten wir
die Determinante:
Lemma 16.7. Sei L(B) = L(B 0 ). Dann gilt det B T B = det B 0 T B 0 .
Beweis. Gemäß Lemma 16.6 existiert ein T ∈ GLm (Z) mit B 0 = BT und | det T | = 1.
Aus
T
det B 0 B = det(BT )T (BT ) = det B T B · (det T )2 = det B T B
| {z }
=1
folgt die Behauptung.
Abbildung 1. Grundmasche P(b1 , b2 ) von b1 , b2
b2
pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp
pp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppp
ppppppppppppppppppppppppppppppp
p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp
ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppp
p p p p p p P(b
p p p p p p p p 1p p p,p pbp p 2p p )p p p p p p p p
ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppp
ppppppppppppppppppppppppppppppp
p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppppp ppppp ppppp ppppp ppppp ppppp pp
pp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pp pp pp pp pp
b
1
0
Def inition 16.8 (Grundmasche). Zur Gitterbasis b1 , . . . , bm ⊆ Rn heißt
(m
)
X
P(b1 , . . . , bm ) :=
ti b i 0 ≤ t 1 , . . . , t n < 1
i=1
Grundmasche zu b1 , . . . , bm .
Das Volumen der Grundmasche entspricht der Determinante des erzeugten Gitters:
Lemma 16.9. Für jedes Gitter L := L(B) ⊆ Rn vom Rang m gilt det L = volm (P(B)).
204
16. Gittertheorie
Beweis. Im Fall m = n, d.h. das Gitter ist volldimensional, gilt:
1
1
det L = (det B T B) 2 = (det B · det B) 2 = det B = volm (P(B)).
Im Fall m < n gibt es eine isometrische Abbildung T : span(L) → Rm , die Skalarprodukt und Volumen erhält:
det L = det T (L) = volm (T (P(B))) = volm (P(B)).
Jeder (geordneten) Gitterbasis b1 , . . . , bm ∈ Rn ordnet man ein Orthogonalsystem
bb1 , . . . , bbm ∈ Rn gemäß Schmidt’schem Orthogonalisierungsverfahren zu:
bbi := bi −
i−1
X
hbi , bbj i
kbbj k2
j=1 | {z
}
·bbj
für i = 1, 2, . . . , m.
=:µi,j
Mit den Gram-Schmidt-Koeffizienten µi,j gilt:
bi = bbi +
i−1
X
j=1
µi,jbbj .
für i = 1, 2, . . . , m.
(41)
Der Vektor bbi ist die Projektion πi (bi ) von bi auf den Raum span(b1 , . . . , bi−1 )⊥ . Man
definiert µi,j := 0 für j > 0 und µi,i := 1, um die Gleichungen (41) in Matrixschreibweise darzustellen:


1 µ2,1 · · · µm−1,1
µm,1

µm−1,2
µm,2 

0 1


.
.
.
.
b
b
.
.
.
.
b 1 · · · b m = b1 · · · b m ·  .
.
.
.
. 


0

0
1
µm,m−1
0 ···
0
0
1
|
{z
}
T
= µi,j
1≤i,j≤m
Ein Ziel der Gitterreduktion ist das Finden eines kürzesten nicht-trivalen (d.h. ungleich der Nullvektor) Gittervektors in L. Dessen Länge heißt das erste sukzessive
Minimum λ1 (L) von L:
Def inition 16.10 (Sukzessive Minima). Zu einem Gitter L ⊆ Rn vom Rang m
heißen die Werte
Es existieren linear unabhängige
λi (L) := min r > 0 v1 , . . . , vi ∈ L mit max kvi k ≤ r.
für i = 1, 2, . . . , m sukzessive Minima von L.
Es gilt λ1 (L) ≤ λ2 (L) ≤ · · · ≤ λm (L).
2. Gitterreduktion
205
2. Gitterreduktion
Ziel der Gitterreduktion ist es, eine reduzierte Basis für ein gegebenes Gitter zu finden.
Die Vektoren der Basis sollen (weitgehend)
• orthogonal sein und
• die Länge der Basisvektoren den sukzessiven Minima entsprechen.
Wir analysieren zuerst den Fall von Gitter mit Rang 2. Betrachte Abbildung 2: Liegt
der Vektor b2 im markierten Bereich, also − 12 ≤ µ2,1 ≤ + 12 , ist die Basis b1 , b2
reduziert:
Def inition 16.11 (Reduzierte Basis). Eine (geordnete) Basis b1 , b2 ∈ Rn heißt reduziert, wenn
a) kb1 k ≤ kb2 k.
b) |µ2,1 | ≤ 21 .
Abbildung 2. Reduzierte Basis b1 , b2
|µ2,1 | ≤
1
2
ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp
ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp
ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp
ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp
ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp b2
ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp
ppp ppp ppp ppp ppp ppp ppp ppp ppp pp pp pp pp p p p p p p p p p p p p p pp pp pp pp ppp ppp ppp ppp ppp ppp ppp ppp ppp
p p pp pp ppp ppp
ppp ppp pp pp p p
r
- b1
0
pppp pppp ppp ppp pp pp p p p
p p pp pp ppp ppp
pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pppp pppp pppp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp
pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp
ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp
pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp
pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp
ppppppppppppppppppppppppppppppppppppppp
Algorithmus 3 transformiert die gegebene Basis b1 , b2 in eine reduzierte Basis
desselben Gitters. Reduzierte Basen realisieren die beiden sukzessiven Minima des
Gitters:
Fakt 16.12. Sei b1 , b2 eine reduzierte Basis eines Gitters L. Dann gilt λ1 (L) = kb1 k
und λ2 (L) = kb2 k.
Ein Reduktionsbegriff für Gitter vom Rang m ≥ 2 stammt von A.K. Lenstra,
H.W. Lenstra und L. Lovász [LLL82]:
206
16. Gittertheorie
Abbildung 3. Reduktions-Algorithmus
Eingabe: Basis b1 , b2 ∈ Rn
(1) b2 := b2 − bµ2,1 e · b1 .
(2) IF kb2 k < kb1 k THEN swap(b1 ,b2 ); GOTO 1.
Def inition 16.13 (L3 -reduzierte Basis). Eine (geordnete) Basis b1 , . . . , bm ∈ Rn
heißt L3 -reduziert mit Parameter δ ∈ ( 14 , 1], wenn
(L1) |µi,j | ≤ 12 für 1 ≤ j < i ≤ m.
(L2) δ · kbbk−1 k2 ≤ kbbk k2 + µ2k,k−1 · kbbk−1 k2 für k = 2, 3, . . . , m.
Für eine L3 -reduzierte Basis b1 , . . . , bm gilt
kbbk−1 k2 ≤ α · kbbk k2
(42)
mit α := (δ − 41 )−1 , denn wegen Eigenschaft L1 ist µ2k,k−1 ≤ 41 und Ungleichung
(42) folgt aus Eigenschaft L2. In [LLL82] wurden die Parameter δ = 43 und α =
2 benutzt. Man kann eine gebenene Basis effizient in eine L3 -reduzierte desselben
Gitters überführen [LLL82]:
Fakt 16.14. Der Reduktions-Algorithmus von Lenstra, Lenstra und Lovász
transformiert eine gegebene Gitterbasis b1 , . . . , bm ∈ Zn in eine L3 -reduzierte zum
Parameter δ < 1 in O(m3 n log B) arithmetischen Schritten auf ganzen Zahlen der
Bitlänge O(n log B) mit B := maxi kbi k2 .
Bemerkung 16.15. Die Laufzeit des Reduktions-Algorithmus’ und die auftretenden Bitlängen sind ebenfalls polynomiell beschänkt, wenn die Basis aus rationalen
Vektoren besteht.
Mit Hilfe des L3 -Reduktions-Algorithmus’ können wir den kürzesten, nicht-trivialen
Gittervektor bis auf einen exponentiellen Faktor approximieren:
Satz 16.16. Sei b1 , . . . , bm ∈ Rn eine L3 -reduzierte Basis des Gitters L. Dann gilt
mit α := δ−1 1 :
4
kb1 k2 ≤ αm−1 · λ1 (L).
Pm
Beweis. Sei v =
i=1 ti bi ∈ L ein Gittervektor mit kvk = λ1 (L). O.B.d.A. sei
tm 6= 0, sonst erniedrige m. Es gilt:
T
v = b1 · · · bm · t = bb1 · · · bbm µi,j 1≤i,j≤m · t.
Wir erhalten kvk2 ≤ t2m · kbbm k2 ≤ kbbm k2 . Andererseits gilt wegen Ungleichung (42):
kb1 k2 = kbb1 k2 ≤ α · kbb2 k2 ≤ · · · ≤ αm−1 · kbbm k2
Somit ist kb1 k2 ≤ αm−1 · kvk2 = αm−1 λ1 (L)2 .
Wir zitieren weitere Eigenschaften L3 -reduzierter Basen [LLL82]:
2. Gitterreduktion
207
Fakt 16.17. Sei b1 , . . . , bm ∈ Rn eine L3 -reduzierte Basis des Gitters L zum Parameter δ. Dann gilt mit α := δ−1 1 :
4
2
a) α1−j ≤
kbbj k
kbj k2
≤
≤ αm−1 für j = 1, . . . , m.
λj (L)2
λj (L)2
n−1
2
b) kb1 k2 ≤ α 2 (det L) m .
m
m
Q
c)
kbi k2 ≤ α( 2 ) (det L)2 .
i=1
In den beiden folgenden Abschnitt stellen wir Anwendungen der Gitterreduktion vor.
Simultane Diophantische Approximation. Beim Problem der simultanen Diophantischen Approximation sucht man zu gegebenen α1 , . . . , αn ∈ Q und ∈ (0, 1)
Zahlen p1 , . . . , pn , q ∈ Z mit
αi − pi ≤ i=1,. . . ,n
q q
und 1 ≤ q ≤ −n . Ein klassischer Satz von Hermite besagt, dass eine Lösung existiert.
Wir zeigen, dass man mit dem L3 -Algorithmus eine Lösung berechnen kann, wird die
Restriktion bezüglich q abgeschwächt zu:
1≤q≤2
n(n+1)
4
−n =: δ.
Wir bestimmen eine L3 -reduzierte Basis b1 , . . . , bn+1 des Gitters L ⊆ Qn , welches von
folgender Basismatrix erzeugt wird:


1 0 · · · 0 0 −α1
0 1
0 0 −α2 


 ..
..
.. 
..
.
.
.
. 
B := 
(43)
 ∈ Mn+1,n+1 (Q).
0 0
1 0 −αn−1 


0 0 · · · 0 1 −αn 
0 0 ··· 0 0
/δ
Offenbar ist det L = /δ. Für jede L3 -reduzierte Basis b1 , . . . , bn+1 können wir die
Länge des ersten Basisvektors wie folgt abschätzen:
2
2
n
n
n
n
n+1
= 2 2 · 2− 2 2 = 2 .
(44)
kb1 k2 ≤ 2 2 · (det L) n+1 = 2 2 ·
δ
Sei (p1 , . . . , pn , q) ∈ Zn+1 der Koeffizientenvektor von b1 bezüglich der Basismatrix B
aus (43):


p1 − qα1


..


.
b1 = 

pn − qαn 
q/δ
O.B.d.A. sei q ≥ 0, sonst betrachte −b1 . Es gilt in Verbindung mit Abschätzung (44)
n
X
q 2 2
kb1 k2 =
(pi − αi q)2 + 2 ≤ 2 ,
δ
i=1
208
16. Gittertheorie
so dass jede Komponente absolut durch beschränkt ist:
|pi − αi q| ≤ für i = 1, . . . , n
q/δ ≤ .
Es ist q > 0, da für q = 0 wegen b1 6= 0 mindestens ein ganzzahliges pi 6= 0 ist
und die Abschätzung |pi | ≤ < 1 nicht erfüllt wäre. Wir dividieren
durch
q ≥ 1
pi δ
bzw. multiplizieren die letzte Ungleichung mit und erhalten αi − q ≤ q mit
1 ≤ q ≤ δ.
Satz 16.18. Es gibt einen Polynomialzeit-Algorithmus, der zu α1 , . . . , αn ∈ Q und
∈ (0, 1) Zahlen p1 , . . . , pn , q ∈ Z mit
αi − pi ≤ i=1,. . . ,n
q q
und 1 ≤ q ≤ 2
n(n+1)
4
−n liefert.
Rucksack-Problem. Beim Rucksack-Problem (auch Subsetsum-Problem genannt)
sind zu a1 , . . . , an ∈ N und s ∈ N ein Vektor e ∈ {0, 1}n mit
n
X
ei ai = s
i=1
zu bestimmen oder zu zeigen, dass ein solcher nicht existiert. Zwar können wir effizient
überprüfen, ob ein Vektor e eine Lösung darstellt, vermutlich gibt es aber keinen
Polynomialzeit-Algorithmus, der eine Lösung bestimmt:
Fakt 16.19 (Cook, Levin). Die Sprache
(
)
n
X
(n, a1 , . . . , an , s) ∈ Nn+2 ∃e ∈ {0, 1}n :
ei ai = s
i=1
ist N P-vollständig.
Gibt es ein Polynomialzeit-Entscheidungsverfahren für die Rucksack-Sprache, so
kann jede nicht-deterministische Turingmaschine in Polynomialzeit deterministisch
simuliert werden.
Zu einem gegebenen Rucksack-Problem (n, a1 , . . . , an , s) ist das inverse Problem
erklärt durch
n, a1 , . . . , an , s :=
n
X
i=1
ai − s .
Eine Lösung e des Ausgangsproblems liefert unmittelbar eine Lösung e des inversen
Problems und umgekehrt:
n
X
i=1
ei ai = s
⇐⇒
n
X
i=1
(1 − ei ) ai = s.
| {z }
=ei
2. Gitterreduktion
209
Fakt 16.20 (Lagarias, Odlyzko 1985). Für fast alle (a1 , . . . , an ) ∈ [1, A]n mit Dichte
n
d := log max
< 0, 6463 löst der kürzeste Gittervektor des Gitters erzeugt von der
i ai
2
Basismatrix


1
0
···
0
0


..

.
1
0 
q

 0
1

..
.
.
b1 · · · bn+1 = 
,
N
>
..
.. 
2 n,
 .


 0
0
···
1
0 
N a1 N a2 · · · N an N s
entweder das Rucksack-Problem oder das inverse Problem.
Einer Lösung e = (e1 , . . . , en ) des Rucksack-Problems ordnen wir folgenden Gittervektor zu

  
e1
e1
n
  .. 

..
X
 .

.
v(e) :=
ei bi − bn−1 = 
 =  .
 en 

i=1
Pn en
N
0
i=1 ei ai − s)
p
p
Es gilt kvk ≤ n/2 oder kvk ≤ n/2 für den Vektor assoziert mit der Lösung e
des inversen Problems, da eine der beiden Lösungvektoren maximal 12 n Eins-Einträge
hat.
Coster, Joux, LaMacchina, Odlyzko, Schnorr und Stern [CJLOSS92]
haben das Resultat durch Modifikation der Gitterbasis zu


1
1
0
···
0
2


..
1 
 0
.
1
2


..
..  ,
.
b1 · · · bn+1 = 
.
 .
.
. 


1 
 0
0
···
1
2
N a1 N a2 · · · N an N s
verbessert (CJLOSS-Gitter). Der Lösungsvektor
v(e) :=
n
X

e1 − 21
 .. 


=  . 1
en − 
2
0

ei bi − bn−1
i=1
hat die Länge
v
u n
uX
2
√
ei − 12 = 12 n,
kvk = t
i=1
sofern die Lösung e jeweils 21 n-viele Koordinaten ei = 0 und ei = 1 hat. Damit ist die
p
Länge des Lösungsvektors um den Faktor 1/2 kleiner als beim Gitter von Lagarias und Odlyzko, während die Gitterdeterminanten beider Gitter von derselben
Größenordnung sind.
210
16. Gittertheorie
Fakt 16.21. Für fast alle (a1 , . . . , an ) ∈ [1, A]n mit Dichte d < 0, 9408 löst der
kürzeste Gittervektor des CJLOSS-Gitters entweder das Rucksack-Problem oder das
inverse Problem.
Anhang A
Grundbegriffe
1. Notationen
Wir wiederholen die aus der Schulmathematik bekannten Notationen für Zahlmengen.
Es bezeichne
• N = {1, 2, 3, . . . } die Menge der natürlichen Zahlen,
• N0 = {0, 1, 2, . . . } die Menge der natürlichen Zahlen mit 0,
• Z = {0, ±1, ±2, . . . } die Menge der ganzen Zahlen,
• Q = ab a, b ∈ Z, b 6= 0 die Menge der rationalen Zahlen, und
• R die Menge der reellen Zahlen.
Manche Autoren verwenden das Symbol N für die Menge N0 = {0, 1, 2, . . . }.
Als Abkürzung für Summen und Produkte reeller Zahlen x1 , . . . , xn schreiben wir
n
n
X
Y
xi = x1 + x2 + · · · + xn
und
xi = x1 · x2 · · · xn
i=1
i=1
Gegebenenfalls schränken wir den Laufindex zusätzlich ein, wie beispielsweise in der
folgenden Formel, die gleichzeitig eine doppelte Summation zeigt:
n X
m
n
X
X
xi,j =
(xi,1 + · · · + xi,i−1 + xi,i+1 + · · · + xi,m )
i=1 j=1
j6=i
i=1
P
Q
Die leere“ Summe 0i=1 xi setzen wir auf 0. Das leere“ Produkt 0i=1 sei 1.
”
”
Neben den lateinischen Buchstaben A, . . . , Z, a, . . . , z werden in der Mathematik häufig die griechischen Klein- und Großbuchstaben verwendet. Dabei sind die in
der Tabelle nicht aufgeführten griechischen Großbuchstaben mit den entsprechenden
lateinischen Großbuchstaben identisch.
2. Logik
Die klassische Aussagenlogik geht von zwei Wahrheitswerten 1 (wahr) und 0 (falsch),
aussagenlogischen Variablen und Funktionen ∨ (oder), ∧ (und), ¬ (nicht) aus. Eine
211
212
A. Grundbegriffe
Großbuchstabe
Γ
∆
Θ
Λ
Kleinbuchstabe
α
β
γ
δ
, ε
ζ
η
θ, ϑ
ι
κ
λ
µ
ν
Name
Alpha
Beta
Gamma
Delta
Epsilon
Zeta
Eta
Theta
Iota
Kappa
Lambda
Mu
Nu
Großbuchstabe
Ξ
Π
Σ
Υ
Φ
Ψ
Ω
Kleinbuchstabe
o
ξ
o
π, $
ρ, %
σ, ς
τ
υ
φ, ϕ
χ
ψ
ω
Name
O
Xi
O
Pi
Rho
Sigma
Tau
Upsilon
Phi
Chi
Psi
Omega
aussagenlogische Variable a kann die Werte 0 und 1 annehmen und die Funktionen
der Variablen a, b definiert man durch den Verlauf der Wahrheitswerte:
a
0
0
1
1
b
0
1
0
1
¬a a ∧ b a ∨ b
1
0
0
1
0
1
0
0
1
0
1
1
Allgemeiner kann man komplexere Formeln durch Verschachtelung aufbauen, beispielsweise für zwei Formeln ¬a und b ∨ c die Formel (¬a) ∧ (b ∨ c) bilden. Zur Vereinfachung der Klammerschreibweise legen wir folgende Bindungsprioritäten fest: ¬
vor ∧ vor ∨. Dadurch können wir Klammern entfallen lassen und erhalten beispielsweise aus (¬a) ∧ (b ∨ c) die Vereinfachung ¬a ∧ (b ∨ c). Dies entspricht der bekannten
Vereinfachung der Klammerschreibweise bei Multiplikation und Addition für reelle
Zahlen.
Belegt man die Variablen in einer aussagenlogischen Formel, kann man den Wahrheitswert der Formel berechnen, indem man die Werte von innen nach außen“ be”
rechnet. Für zwei aussagenlogischen Formeln A und B (über den gleichen Variablen)
schreiben wir A = B, wenn die Wahrheitswerte von A und B unter allen Belegungen
der Variablen identisch sind.
Neben den offensichtlichen Eigenschaften für die Funktionen ∧, ∨ und ¬ wie
beispielsweise A ∧ B = B ∧ A, A ∨ B = B ∨ A und ¬¬A = A gelten die beiden
folgenden wichtigen Regeln:
• Regel von DeMorgan: ¬(A ∧ B) = ¬A ∨ ¬B und ¬(A ∨ B) = ¬A ∧ ¬B
• Distributivität: (A ∨ B) ∧ C = (A ∧ C) ∨ (B ∧ C) und (A ∧ B) ∨ C =
(A ∨ C) ∧ (B ∨ C)
Man verifiziere diese Regeln durch den Werteverlauf.
Eine Implikation oder Folgerung A ⇒ B ( wenn A, dann B“) ist definiert durch
”
A ⇒ B = ¬A ∨ B
2. Logik
213
Wir sagen, dass die Aussage A die Aussage B impliziert bzw. dass A hinreichend für
B ist. Umgekehrt sagen wir, dass B aus A folgt bzw. dass B notwendig für A ist. Wir
nennen A Voraussetzung oder Annahme und B Folgerung.
Eine Äquivalenz A ⇔ B ( A genau dann, wenn B“) ist definiert durch
”
A ⇔ B = (A ⇒ B) ∧ (B ⇒ A)
Wir sagen, dass A und B äquivalent sind bzw. das A notwendig und hinreichend für
B (und umgekehrt) ist. Bezüglich der Bindung gelte ¬ vor ∧ vor ∨ vor ⇒ vor ⇔.
Implikationen A ⇒ B sind stets nur in eine Richtung zu lesen“. Die Umkehrung
”
gilt im allgemeinen nicht, wie das folgende Beispiel zeigt:
Eine natürliche Zahl größer als 5 ist auch größer als 3.
Um die Implikation besser hervorzuheben, formulieren wir die Aussage (und auch die
folgenden Beispiele) in eine explizite wenn. . . dann“-Aussage um.
”
Wenn eine natürliche Zahl größer als 5 ist, dann ist sie größer als 3.
Die Umkehrung der Aussage ist:
Wenn eine natürliche Zahl größer als 3 ist, dann ist sie größer als 5.
Offensichtlich ist die Zahl 4 ein Gegenbeispiel.
Wir betrachten einige elementaren Eigenschaften von Implikationen, die sich unmittelbar aus der Charakterisierung durch die logischen Verknüpfungen ergeben. Diese Eigenschaften bilden die Grundlage für das folgende Kapitel über Beweistechniken.
• Kontraposition: A ⇒ B = ¬B ⇒ ¬A
• Transitivität: (A ⇒ B) ∧ (B ⇒ C) ist hinreichend für A ⇒ C
• Kontradiktion: A ⇒ B = A ∧ ¬B ⇒ 0
Die Transitivität besagt, dass man aus A ⇒ B und B ⇒ C die Aussage A ⇒ C
schliessen kann. Möchte man beispielsweise die Äquivalenz der Aussagen A, B und
C beweisen, so genügt es wegen der Transitivität, A ⇒ B, B ⇒ C und C ⇒ A
zu zeigen (Ringschluß). Die Kontradiktion besagt, dass die Hinzunahme von ¬B zur
Voraussetzung A auf einen Widerspruch führt.
Die Prädikatenlogik führt zusätzlich den Allquantor ∀ und den Existenzquantor ∃
ein. Die Interpretation der Formeln ∀x : A bzw. ∃x : B ist, dass die aussagenlogische
Formel A für alle x gilt bzw. dass es ein x gibt, so dass die aussagenlogische Formel B
gilt; die Formeln A bzw. B hängen dabei im allgemeinen von x ab. Das Universum“,
”
aus dem x stammt, geht in der Regel aus dem Kontext hervor. Tatsächlich ist die
Wahl dieses Universums“ entscheidend für die Gültigkeit der Formeln, wie wir an
”
einem Beispiel sehen werden. Der Begriff der Gültigkeit ist bei prädikatenlogischen
Formeln komplizierter zu formalisieren als bei aussagenlogischen Formeln. Wir verzichten daher hier auf eine Definition und beschränken uns auf die oben angegebene
Interpretation.
Prädikatenlogische Formeln können wie aussagenlogische Formeln verschachtelt
werden, so dass beispielsweise Formeln der Form ∀x : (A ⇒ ∃y : B) möglich sind.
214
A. Grundbegriffe
Dabei nehmen wir an, dass Quantoren stärker binden als aussagenlogische Funktionen. Tritt der gleiche Quantorentyp hintereinander auf, so faßt man diese Quantoren
im allgemeinen zusammen, z.B. ∀x : ∀y : A zu ∀x, y : A. Für die Quantoren gelten
folgende Regeln:
¬ ∀x : A = ∃x : ¬A
und
¬ ∃x : A = ∀x : ¬A.
Beachte, dass ¬ ∀x : A = ¬ (∀x : A) nach Festlegung der Bindungprioritäten. Bei
Verschachtelung erhält man beispielsweise die Äquivalenz von ¬ ∃x : ∀y : A und
∀x : ∃y : ¬A.
Wir betrachten ein Beispiel. Sei < das bekannte Kleiner-Als“-Prädikat über den
”
reellen bzw. natürlichen Zahlen: a < c ist genau dann wahr, wenn es eine positive
Zahl b ∈ R mit a + b = c gibt. Gegeben sei die Formel
∀r, t : r < t ⇒ ∃s : (r < s ∧ s < t) ,
die ausdrückt, dass zwischen zwei verschiedenen Zahlen r, t stets eine weitere Zahl
s liegt. Betrachten wir r, s, t über den reellen Zahlen, gilt diese Formel, denn s =
1
2 (r + t) ∈ R erfüllt für alle r, t mit r < t die Bedingung. Über den natürlichen Zahlen
gilt die Aussage nicht, denn zwischen r und t = r + 1 liegt keine weitere natürliche
Zahl.
3. Beweistechniken
Um mathematische Aussagen von der Form A ⇒ B zu beweisen, gibt es elementare
Vorgehensweisen, von denen wir hier einige wichtige vorstellen.
Direkte Beweise. Bei einem direktem Beweis wird die Aussage A ⇒ B zerlegt
in Aussagen der Form A ⇒ A1 , A1 ⇒ A2 , . . ., An−1 ⇒ An , An ⇒ B. Aus der
Transitivität folgt dann die Behauptung A ⇒ B. Die einzelnen Implikationen können
dann mit einer der in diesem Kapitel aufgeführten Beweistechniken gezeigt werden
bzw. sind meistens einfach zu sehen. Setzt man beispielsweise als bekannt voraus,
dass das Produkt und die Summe zweier natürlicher Zahlen positiv ist, so läßt sich
die Aussage
Wenn m > n für natürliche Zahlen m, n gilt, dann ist m2 > n2 .
durch einen direkten Beweis zeigen: Aus m > n folgt m = n + k für eine natürliche
Zahl k. Mit dem Binomischen Lehrsatz erhalten wir m2 = (n+k)2 = n2 +2nk+k 2 . Die
letzten beiden Summanden sind das Produkt natürlicher Zahlen und damit ebenso
wie die Summe 2nk + k 2 positiv. Wir schließen, dass m2 = n2 + 2nk + k 2 > n2 .
Obwohl wir die Aussage als wenn. . . dann“-Aussage formuliert haben, ist sie im”
plizit eine prädikatenlogische Formel: über den natürlichen Zahlen gilt ∀m, n : (m >
n ⇒ m2 > n2 ). Die angegebene Aussage entspricht der sprachlichen Übersetzung
dieser Formel, da wir in der Annahme beliebige natürliche Zahlen m, n mit m > n
voraussetzen.
3. Beweistechniken
215
Vollständige Induktion. Die vollständige Induktion erlaubt es, Eigenschaften bezüglich der natürlichen Zahlen zu beweisen: Wenn für eine Zahl m die Eigenschaft
E(m) gilt und für alle n ≥ m folgt E(n + 1) aus E(n), dann gilt E(n) für alle n ≥ m.
Wir betrachten ein Beispiel:
Wenn n ≥ 3 für n ∈ N ist, dann gilt 2n > 2n.
Wir beweisen diese Aussage durch vollständige Induktion: In der Induktionsverankerung zeigen wir, dass die Formel für n = 3 gilt. Dies folgt durch unmittelbares
nachrechnen. Im Induktionsschritt zeigen wir, dass aus der Induktionsvoraussetzung
2n > 2n auch 2n+1 > 2(n + 1) folgt. Durch die Induktionsvoraussetzung erhalten wir
2n+1 = 2 · 2n = 2n + 2n > 2n + 2n
Andererseits gilt offensichtlich 2n ≥ 2 für alle n ≥ 1 und damit auch für n ≥ 3. Es
folgt
2n+1 > 2n + 2n ≥ 2n + 2 = 2(n + 1)
und daraus die Behauptung.
Folgt die Eigenschaft E(n+1) nicht nur aus E(n), sondern beispielsweise aus E(n)
und E(n − 1), so ist die Induktionsverankerung für die Werte E(m) und E(m + 1)
zu zeigen. Die vollständige Induktion besagt in diesem Fall: Wenn E(m), E(m + 1)
gelten und für alle n ≥ m + 1 aus E(n) und E(n − 1) auch E(n + 1) folgt, dann gilt
E(n) für alle n ≥ m.
Beweis durch Kontraposition. Beim Beweis durch Kontraposition zeigt man die
Aussage ¬B ⇒ ¬A, um A ⇒ B zu beweisen. Diese Vorgehensweise ist meistens
einfacher als ein direkter Beweis. Wir demonstrieren die Beweistechnik am Beispiel
der Primzahlen. Aus der Schulmathematik ist bekannt, dass eine natürliche Zahl prim
ist, wenn sie nur durch sich selbst und durch 1 teilbar ist, wobei die 1 als Primzahl
ausgeschlossen wird. Die ersten fünf Primzahlen lauten daher 2, 3, 5, 7, 11. Allgemein
gilt:
Wenn p ∈ N prim ist und p > 2, dann ist p ungerade.
Der Beweis erfolgt durch Kontraposition, d.h. wir zeigen, dass eine gerade Zahl p
nicht prim ist oder p ≤ 2 gilt. Beachte, dass wir hier die DeMorgansche Regel auf
¬(p prim ∧ p > 2)“ angewendet haben. Wenn aber p gerade ist, dann ist p = 2
”
oder p ≥ 4 echt durch 2 teilbar und damit nicht prim. Beweise durch Widerspruch
fomuliert man häufig als Beweis durch Widerspruch:
Beweis durch Widerspruch. Beim Beweis durch Widerspruch (auch Beweis durch
Kontradiktion) beweist man A ⇒ B, indem man zeigt, dass A ∧ ¬B auf einen Widerspruch führt. Beispiel:
Wenn p ∈ N prim ist und p > 2, dann ist p ungerade.
Nehmen wir also an, dass p prim, p > 2 und p gerade ist. Dann ist allerdings die
Primzahl p > 2 echt durch 2 teilbar — Widerspruch zur Eigenschaft von Primzahlen.
216
A. Grundbegriffe
4. Mengen, Relationen und Funktionen
Zur Vereinfachung verwenden wir hier die naive“ Mengenlehre nach Cantor, die be”
sagt, dass jede Eigenschaft E eine Menge ME definiert: die Menge ME = {x | E(x) }
ist die Sammlung“ von Objekten x, für die E(x) erfüllt ist. Obwohl diese Anschau”
ung auf inhaltliche Widersprüche führt (Russelsche Antinomie1), genügt sie für eine
elementare Einführung der Begriffe.
Wir führen zunächst einige Notationen ein. Seien X, Y Mengen. Ist x ein Element
der Menge X, dann schreiben wir x ∈ X. Wir sagen auch, dass x in X liegt bzw. das
x in X enthalten ist. Die Menge X ist eine Teilmenge von Y (X ⊆ Y ), wenn jedes
x ∈ X auch Element von Y ist. Ein Element x ist genau dann in der Vereinigung
X ∪ Y von X und Y , wenn es in mindestens einer der beiden Mengen X und Y liegt.
Das Element x ist genau dann im Durchschnitt X ∩ Y von X und Y enthalten , wenn
es sowohl in X als auch in Y liegt. Die Differenz X \ Y von X und Y enthält alle
Elemente x ∈ X, die nicht in Y liegen. Beachte, dass Y Elemente enthalten kann, die
nicht in X sind (und damit natürlich auch nicht in X \ Y ). Gilt Y ⊆ X, so schreibt
man auch X − Y statt X \ Y . Für eine endliche Menge X heißt die Anzahl |X| der
Elemente in X die Mächtigkeit von X. Für unendliche Mengen ist die Definition der
Mächtigkeit aufwendiger und wir verzichten hier darauf. Mit ∅ bezeichnen wir die
leere Menge, die kein Element enthält. Vereinigung und Durchschnitt zweier Mengen
kann man verallgemeinern:
S
T Für eine nicht-leere Menge I und Mengen Xi für i ∈ I
bezeichnet i∈I Xi bzw. i∈I Xi die Menge, die genau die x enthält, für die ein i ∈ I
mit x ∈ Xi existiert bzw. für die x ∈ Xi für alle i ∈ I. Die Menge I nennen wir in
diesem Fall Indexmenge.
In der Schule verwendet man — bewußt oder unbewußt — zwei Eigenschaften
von Funktionen: Für eine Funktion f : X → Y mit Definitionsbereich X ⊆ R und
Wertebrereich Y ⊆ R gibt es für alle x ∈ X mindestens einen Wert y ∈ Y mit
f (x) = y (so dass f auf X definiert ist) und andererseits höchstens einen Wert
y ∈ Y mit f (x) = y (so dass jedes x auf maximal einen Wert abgebildet wird). Wir
formalisieren diese Eigenschaften, indem wir den Begriff des kartesischen Produkts
und der Relation einführen.
Für zwei Mengen X, Y ist X × Y das Kartesische Produkt, das die Menge bezeichnet, die genau die geordneten Paare (x, y) mit x ∈ X und y ∈ Y enthält. Das
geordnete Paar (x, y) heißt auch Tupel. Allgemeiner kann man das Kartesische Produkt für n Mengen X1 , . . . , Xn definieren. Ein Element (x1 , . . . , xn ) dieses Produkts
heißt dann n-Tupel. Falls X1 = X2 = · · · = Xn schreibt man abkürzend X1n statt
X1 × · · · × Xn . Eine n-stellige Relation R über X1 × · · · × Xn ist eine Teilmenge von
X1 ×· · ·×Xn . Im Fall n = 2, d.h. R ⊆ X ×Y , spricht man von einer binären Relation.
Wir definieren eine Funktion f : X → Y als spezielle binäre Relation f ⊆ X × Y (und
verwenden daher in dieser Definition die Schreibweise (x, y) ∈ f statt f (x) = y), mit
1Betrachte die Menge R aller Mengen, die sich nicht selbst enthalten. Enthält R sich selbst, dann
ist R nicht in R nach Definition. Enthält andererseits R nicht sich selbst, so ist R in R nach Definition
enthalten. Wir erhalten somit den Widerspruch, dass die Menge R sich genau dann enthält, wenn sie
sich nicht enthält.
4. Mengen, Relationen und Funktionen
217
der Eigenschaft, dass für jedes x ∈ X genau ein y ∈ Y mit (x, y) ∈ f existiert. Wir
nennen eine Funktion auch Abbildung.
Für eine Relation R über X ×Y heißt X der Argumentbereich, Y der Wertebereich,
die Menge der x ∈ X, für die ein y ∈ Y mit (x, y) ∈ R existiert, der Definitionsbereich,
die Menge der y, für die ein x mit (x, y) ∈ R existiert, der Bildbereich. Diese Definitionen gelten damit auch für Funktionen, wobei dort Argument- und Definitionsbereich
gleich sind und man mit f (X) oder bild f das Bild von X unter f bezeichnet. Das
Urbild f −1 (y) eines Wertes y ∈ Y unter einer Funktion f : X → Y ist die Menge
aller x ∈ X, für die (x, y) ∈ f . Wir sagen, dass x ein Urbild von y unter f ist, wenn
x ∈ f −1 (y).
Eine Funktion f : X → Y heißt surjektiv, wenn es für alle y ∈ Y ein x ∈ X
mit f (x) = y gibt. Die Funktion f heißt injektiv, wenn für alle y ∈ Y höchstens ein
x ∈ X mit f (x) = y existiert. Sie heißt bijektiv, wenn sie injektiv und surjektiv ist.
Für eine injektive Funktion f : X → Y bezeichnet man mit f −1 : f (X) → X auch
die Umkehrfunktion von f , d.h. die Funktion mit f −1 (f (x)) = f (f −1 (x)) = x für alle
x ∈ X. Beachte, dass die Injektivität garantiert, dass es sich dabei tatsächlich um
eine Funktion handelt, da es zu jedem y maximal ein x mit f −1 (y) = x gibt. Die Umkehrfunktion von f an einer festen Stelle y und das Urbild von y unter f werden mit
dem gleichen Symbol f −1 (y) bezeichnet. Obwohl Verwechselungen prinzipiell möglich
sind, geht im allgemeinen aus dem Zusammenhang hervor, welches Objekt gemeint
ist; bei einer injektiven Funtion f ist das Urbild f −1 (y) für ein y ∈ f (X) insbesondere
genau die einelementige Menge, deren Element der Wert der Umkehrfunktion f −1 an
der Stelle y ist.
Zur Veranschaulichung der Begriffe betrachten wir Funktionen f, g, h : N → N
über den natürlichen Zahlen. Die Funktion f sei definiert durch
f (n) = 2n
Dann ist f injektiv, da f (m) = 2m 6= 2n = f (n) für m 6= n. Die Funktion ist
allerdings nicht surjektiv, da die ungeraden Zahlen keine Urbilder unter f besitzen.
Eine surjektive, aber nicht injektive Funktion ist
(
n
falls n gerade
2
g(n) = n+1
falls n ungerade
2
Offensichtlich bildet g jede ungerade Zahl und die darauffolgende gerade Zahl auf den
gleichen Wert ab. Daher ist g nicht injektiv. Andererseits ist g surjektiv, da für jedes
m der Wert 2m ein Urbild ist.
Ein triviales Beispiel einer bijektiven Funktion über den natürlichen Zahlen ist die
Identitätsfunktion id(n) = n. Wir betrachten als weiteres Beispiel folgende Funktion:
(
n − 1 falls n gerade
h(n) =
n + 1 falls n ungerade
Die Funktion h vertauscht jede ungerade Zahl mit ihrem geraden Nachfolger und ist
daher bijektiv. Ferner ist h die Umkehrfunktion zu sich selbst.
Anhang B
Übungsaufgaben
1. Übungsblatt 1
Aufgabe 1.1. Löse das lineare Gleichungssystem zu folgender erweiterter Matrix
über K = R und K = {0, 1, 2} = Z3 :


2
1 1 2 0
2 1 0 1
0
 ∈ M4,5 (K)
(A, b) = 
0 1 2 0
1
1 1 2 1
2
Aufgabe 1.2. Sei K beliebiger Körper, (A, b) ∈ M2,3 (K) und
det(A) := a11 a22 − a12 a21 ∈ K
sei die Determinante von A. Zeige: Ax = b ist genau dann für alle b ∈ K2 lösbar,
wenn det(A) 6= 0. Hinweis: Zeilen- und Spaltenoperationen ändern |det(A)| nicht.
Aufgabe 1.3. Sei K beliebiger Körper und UDn ⊂ Mn,n (K) die Menge der unteren
Dreiecksmatrizen, d.h. der Matrizen A = (aij )1≤i,j≤n mit aij = 0 für i < j. Zeige:
A, B ∈ UDn ⇒ A · B ∈ UDn .
Aufgabe 1.4. Sei A = (ai,j )1≤i,j≤n ∈ UDn . Zeige: Zu A gibt es genau dann ein
multiplikatives Inverses A−1 ∈ UDn , wenn a11 a22 · · · ann 6= 0. Für A−1 gelte nach
Definition AA−1 = A−1 A = In . Hinweis: Bestimme A−1 durch Rückwärtsauflösen
eines lineare Gleichungssystem in Treppenform.
2. Übungsblatt 2
Aufgabe 2.1. Sei K Körper. Die Operationen + (Addition) und · (Multiplikation)
auf Mn,n (K) sind durch die Körperoperationen von K erklärt:
X
n
(aij ) + (bij ) = (aij + bij ),
(aiν ) · (bνj ) =
aiν bνj
ν=1
Zeige:
219
220
B. Übungsaufgaben
a) Die Multiplikation auf Mn,n (K) ist assoziativ und distributiv.
b) Die Multiplikation auf Mn,n (K) für n ≥ 2 ist nicht kommutativ.
Aufgabe 2.2. Invertiere die Matrix

1
2
A=
0
1
1
1
1
1
2
0
2
2

0
1

0
1
über dem Körper K = {0, 1, 2} mit folgendem Verfahren: Überführe A durch Multiplikation mit Elementarmatrizen von rechts (bzw. links) in I4 . Wende dieselben Transformationsschritte auf I4 an. Zeige: Das Verfahren liefert für beliebige Körper K und
A ∈ Mn,n (K) die inverse Matrix A−1 .
Aufgabe 2.3. Zu A = (aij ) ∈ Mm,n (K) ist AT := (aji ) ∈ Mn,m (K) die transponierte
Matrix. Zeige:
a) (AB)T = B T AT für A ∈ Mm,n (K), B ∈ Mn,k (K).
b) P P T = In gilt für alle Permutationsmatrizen P ∈ Mn,n (K). Hinweis: P =
Vi1 ,j1 · · · Vik ,jk mit Vertauschungsmatrizen Viν ,jν .
Aufgabe 2.4. Sei K Körper und A ∈ Mnn (K). Zeige: Es gibt Permutationsmatrizen
P1 , P2 und T ∈ UDn , B ∈ ODn mit
P1 A P2 = T B.
Hinweis: Ziehe die Zeilen und Spaltenvertauschungen im Gauß-Verfahren vor.
3. Übungsblatt 3
Aufgabe 3.1. Sei
C=
a −b
b a
a, b ∈ R ⊂ M2,2 (R).
Zeige: C ist Körper, C ∼
= C. Es gilt
a −b
` 0
cos ϕ − sin ϕ
=
,
b a
0 `
sin ϕ cos ϕ
wobei die Abbildung
R2 → R≥0 × [0, 2π), (a, b) 7→ (`, ϕ)
a −b
bijektiv ist. Die Abbildung x 7→
x sind die Dreh-Streckungen der reellen
b a
Ebene, erläutere dies.
Aufgabe 3.2. Sei K Körper, G ⊂ Kn Gerade und H ⊂ Kn Hyperebene. Zeige: G, H
sind entweder parallel oder sie haben genau einen Punkt gemeinsam. Der Satz gilt
nicht, wenn man den Körper K durch einen Ring ersetzt, weshalb?
4. Übungsblatt 4
221
Aufgabe 3.3. Sei V ein K-Vektorraum und x1 , . . . , xk ∈ V . Zeige, dass
aspan(x1 , . . . , xk ) := x1 +
k
X
(xi − x1 )K
i=2
der kleinste affine Unterraum ist, der x1 , . . . , xk enthält.
Hinweis: aspan(x1 , x2 ) = x1 +(x2 −x1 )K ist die Gerade durch x1 , x2 . Mit x1 , . . . , xk ∈
A enthält jeder affine Unterraum A auch aspan(x1 , . . . , xk ).
Aufgabe 3.4. Zeige, dass die folgenden Aussagen gelten, wenn man Köraum ersetzt
durch einen der Begriffe Körper, Schiefkörper, Ring, Gruppe, Halbgruppe, Vektorraum, affiner Raum. Sei Y ein Köraum.
T
a) Sind Yi ⊆ Y für i ∈ I Köraume, so auch
Yi .
i∈I
b) Zu X ⊆ Y gibt es einen kleinsten Köraum hXi mit X ⊆ hXi.
Weshalb läßt man zu, dass affine Räume leer sind, aber Vektorräume nicht? Hinweis:
Weise Eigenschaften nach, wie Assoziativität, Kommutativität, Existenz des Inversen
usw.
4. Übungsblatt 4
Aufgabe 4.1. Löse über dem Körper Z5 = {0, 1, 2, 3, 4} das lineare Gleichungssystem
Ax = b mit
2
1 3 4 2
.
(A | b) =
3 4 1 2
3
Konstruiere eine Basis von Lös(A, 0). Erläutere das Lösungsverfahren.
Aufgabe 4.2 (2 zusätzliche Punkte). Sei A ∈ Mm,n (K), K Körper. Zeige: Es gibt
Permutationsmatrizen P, P 0 und T ∈ UDm , T 0 ∈ ODn sowie eine Diagonalmatrix
D ∈ Mm,n (K) mit P AP 0 = T DT 0 .
Dabei gelte für D = (dij ), dass d11 6= 0, . . . , drr 6= 0 und dij = 0 sonst. Ferner sind die Diagonalelemente von T , T 0 alle 1. Erläutere zunächst, dass man nach
Übungsblatt 2, Aufgabe 4, erreichen kann, dass P AP 0 = T B für eine Matrix B in
Treppenform mit r Stufen.
Aufgabe 4.3. Sei G kommutative Gruppe und H ⊆ G Untergruppe. Die Menge
G/H = {aH | a ∈ G } besteht aus den Nebenklassen von H. Zeige: G/H ist Gruppe
mit der Multiplikation
(aH)(bH) = (ab)H.
Zeige zunächst, dass die Multiplikation wohldefiniert ist, d.h. unabhängig von der
Wahl der Repräsentanten.
Aufgabe 4.4 (2 zusätzliche Punkte). Sei C der Körper der komplexen Zahlen. Zeige:
a −b H=
a, b ∈ C ⊂ M2,2 (C) ist Schiefkörper.
b̄ ā 222
B. Übungsaufgaben
Nach Aufgabe 1.2 ist die Matrix genau dann invertierbar, wenn ihre Determinante
aā + bb̄ ungleich Null ist. Zeige, dass die Determinante genau dann null ist, wenn
a = b = 0.
5. Übungsblatt 5
Aufgabe 5.1. Sei
             
2
0
−2
−4
4
4
4 


             

1
3
2
2
5
5
 ,   ,   ,   ,   ,   ,  4  ⊂ R4 .
X := 
 0  7  7   0   6   6   5 





−1
0
1
−2
−2
−2
−3
Konstruiere eine Basis B ⊂ X von span(X ). Beschreibe das Verfahren.
Aufgabe 5.2. Sei K ein Körper, V1 , V2 Vektorräume über K und ψ : V1 → V2 ein
Isomorphismus. Zeige:
a) Die inverse Abbildung ψ −1 : V2 → V1 ist ebenfalls ein Isomorphismus. Hinweis: Es gilt x = y ⇐⇒ ψ(x) = ψ(y), sowie ψ(ψ −1 (x)) = x.
b) Für jede Basis b1 , . . . , bn von V1 gilt, dass ψ(b1 ), . . . , ψ(bn ) eine Basis von
V2 ist. Hinweis: ψ(x) = 0 ⇐⇒ x = 0.
Folgere, dass die Polynome 1, X, . . . , X n eine Basis des Vektorraums K[X]n bilden.
Aufgabe 5.3. Sei A = (aij ) ∈ Mm,n (K). Zeige: Das Gauß’sche Eliminationsverfahren angewandt auf (A | b) benötigt keine Zeilenvertauschung, wenn
(ai1 , . . . , aij ) ∈ Kj i = 1, . . . , j
linear unabhängig ist für j = 1, . . . , n. Gilt auch die Umkehrung?
Aufgabe 5.4. Seien x1 , . . . , xn ∈ Kn linear unabhängig über dem Körper K. Zeige:
Es gibt genau eine Hyperebene H ⊂ Kn mit x1 , . . . , xn ∈ H.
6. Übungsblatt 6
Aufgabe 6.1. Konstruiere die Hyperebene H ⊂ Z57 durch die Punkte (1, 2, 3, 4, 5),
(2, 3, 4, 5, 1), (3, 4, 5, 1, 2), (4, 5, 1, 2, 3), (5, 1, 2, 3, 4). Beschreibe das Verfahren.
Aufgabe 6.2. Seien A, B Matrizen über einem Körper K. Zeige:


..
A . 0 

a) rang 
 . . . . . . . .  = rang(A) + rang(B)
.
0 .. B
b) max(rang(A), rang(B)) ≤ rang(A | B) ≤ rang(A) + rang(B).
Aufgabe 6.3 (2 zusätzliche Punkte). Beweise Satz 3.20 durch Induktion über n:
Je n linear unabhängige Vektoren
 T  a1 , . . . , an
a1
 .. 
Hinweis: Transformiere A =  .  in T AT 0 =
aTn
n
∈
K
a11


0
bildeneine Basis des Kn .
0
. . . . .
 mit invertierbaren
..
0
. A
8. Übungsblatt 8
223
Matrizen T ∈ UDn , T 0 ∈ ODn . Wende die Induktionsannahme auf A0 an. Weshalb
kann man O.B.d.A. annehmen, dass a11 6= 0 ?
Aufgabe 6.4. Sei K Körper und a1 , . . . , an ∈ K paarweise verschieden. Zeige: Die
Vandermonde-Matrix


1
1
···
1
 a1
a2 · · ·
an 


Vn (a1 , . . . , an ) :=  ..
..
.. 
 .
.
. 
n−1
n−1
n−1
a1
a2
· · · an
hat Rang n. Hinweis: Beweis durch Induktion über n.
7. Übungsblatt 7
Aufgabe 7.1. Konstruiere eine Basis des Lösungsraums zum linearen Gleichungssystem
6
X
(1)
ai 2i = 0 ,
i=0
6
X
(2)
ai 3i = 0
i=0
in den Unbestimmten a0 , . . . , a6 über Z11 . Ergänze die Basis jeweils zu Basen der
Lösungsräume der LGS’e (1) und (2).
Aufgabe 7.2. Seien b1 , . . . , bm ∈ Kn , K endlicher Körper und
dim span(b1 , . . . , bm−2 ) = dim span(b1 , . . . , bm ) = m − 2.
Zeige:
a) Es gibt genau eine Darstellung bm−1 =
b) Es gibt genau |K| Darstellungen bm =
m−2
P
λ i bi .
i=1
m−1
P
λ i bi .
i=1
Aufgabe 7.3. Sei K Körper, a1 , . . . , an ∈ K paarweise
verschieden und b1 , . . . , bn ∈
P
i ∈ K[X] mit p(a ) = b für
p
x
K. Zeige: Es gibt genau ein Polynom p(x) = n−1
i
i
i
i=0
i = 1, . . . , n. Hinweis: Schreibe p(ai ) = bi , i = 1, . . . , n, als lineares Gleichungssystem
in p0 , . . . , pn−1 und zeige, dass dieses eindeutig lösbar ist.
Aufgabe 7.4. Zeige: Das Gauß-Verfahren zu (A, b) kommt genau dann ohne Zeilenund Spaltenvertauschungen aus, wenn


a11 · · · a1i

..  = i für i = 1, . . . , rang(A) .
rang  ...
. 
ai1 · · · aii
8. Übungsblatt 8
Aufgabe 8.1. Sei f : U → V Homomorphismus von (endlich dimensionalen) Vektorräumen und U, V zwei K-Vektorräume. Zeige:
a) dim ker f + dim bild f = dim U ,
224
B. Übungsaufgaben
b) Ein surjektives f ist genau dann ein Isomorphismus, wenn dim ker f = 0.
Aufgabe 8.2. Seien U, V zwei K-Vektorräume und f : U → V ein VektorraumHomomorphismus. f werde bezüglich der Basen a1 , . . . , am vonPU und b1 , . . . , bn von
V dargestellt durch die Matrix (fij )T ∈ Mn,m (K) mit f (ai ) = nj=1 fij bj . Zeige:
rang(fij ) = dim f (U ).
Dies rechtfertigt folgende Definition: dim f (U ) heißt der Rang von f .
Aufgabe 8.3. Sei A ∈ Mk,m (K), B ∈ Mm,n (K). Zeige:
rang(AB) ≤ min(rang(A), rang(B)).
Aufgabe 8.4. Seien A, B ∈ Mm,n (K). Zeige:
|rang(A + B) − rang(A)| ≤ rang(B)
Hinweis: Reduziere auf den Fall, dass B eine Diagonalmatrix ist.
9. Übungsblatt 9
Aufgabe 9.1. Die Kodeworte (0, 0, 1, 1, 1, 1, 0), (0, 1, 1, 0, 0, 1, 1), (1, 0, 0, 0, 1, 1, 1) erzeugen einen Code C ⊂ F72 . Konstruiere zu C und C ⊥ eine Generator- und eine
PCH-Matrix in kanonischer Form. Zusatz (2 Punkte): Bestimme d(C), d(C ⊥ ).
Aufgabe 9.2. Der [n, k]-Code C ⊂ Kn habe die Generatormatrix G ∈ Mk,n (K) und
die PCH-Matrix H ∈ Mn−k,n (K). Zeige:
a) Ist G von der Form G = [Ik , A] mit A ∈ Mk,n−k (K), dann ist [−AT , In−k ]
eine PCH-Matrix zu C.
b) Ist H von der Form [B, In−k ] mit B ∈ Mn−k,k (K), dann ist [Ik , −B T ] eine
Generator-Matrix von C.
Es sei K endlicher Körper, |K| = q, Kn sei die Nachrichtenmenge. Wir identifizieren
n
P
mi xi−1 ∈ K[x].
die Nachricht m = (m1 , . . . , mn ) ∈ Kn mit dem Polynom m(x) =
i=1
Sei K = {α1 , ..., αq }. Es gelte n ≤ t ≤ q.
Aufgabe 9.3. Betrachte den linearen Code
C = (m(α1 ), . . . , m(αt )) ∈ Kt m ∈ Kn .
Zeige: C hat die Distanz d(C) = t − n + 1. Hinweis: Benutze Aufgabe 7.3. Warum
nennt man C Interpolationscode?
Aufgabe 9.4. Eine Nachricht m = (m1 , . . . , mn ) ∈ Kn ist derart in m0i ∈ K2 für
i = 1, . . . , t aufzuteilen mit n ≤ t ≤ q, dass man m aus beliebigen n Teilen m0i
rekonstruieren kann. Setze hierzu m0i := (αi , m(αi )) ∈ K2 für i = 1, . . . , t. Gib ein
Verfahren zur Rekonstruktion von m aus m0i1 , . . . , m0in an. (Benutze Aufgabe 3, Blatt
7.)
11. Übungsblatt 11
225
10. Übungsblatt 10
Aufgabe 10.1. Sei C ⊂ Kn ein [n, k]-Code mit PCH-Matrix H ∈ Mn−k,n (K). Zeige:
d(C) ≥ t + 1
⇐⇒
je t Spalten von H sind linear unabhängig über K.
Aufgabe 10.2. Sei C ⊂ Kn ein linearer [n, k]-Code über dem Körper K. Zeige die
Singleton-Schranke:
d(C) ≤ 1 + n − k.
Wenn d(C) = 1+n−k ist, heißt C separabler Maximum-Distanz-Code (MDS-Code).
Hinweis: Benutze Aufgabe 10.1.
Aufgabe 10.3. Die PCH-Matrix des binären 1-fehlerkorrigierenden Hamming-Codes
C3 ⊂ F72 sei


0 0 0 1 1 1 1
H3 =  0 1 1 0 0 1 1  .
1 0 1 0 1 0 1
Gib ein Dekodierverfahren an, das einen Fehler korrigiert, d.h. beschreibe einen Algorithmus zu einer Abbildung dec : F72 → C3 , so dass nach Möglichkeit d(dec(c̃), c̃) ≤ 1
gilt. Hinweis: Fasse die Spalten von H3 als Binärzahlen auf.
Aufgabe 10.4. Sei K ein Körper, U1 , . . . , Un und
⊕ni=1 Ui := {(u1 , ..., ut ) | ui ∈ Ui , i = 1, ..., n }
P
K-Vektorräume endlicher Dimension. Zeige: dim (⊕ni=1 Ui ) = ni=1 dim Ui . Es wird
nicht vorausgesetzt, dass die Ui Untervektorräume eines gemeinsamen Vektorraums
sind.
11. Übungsblatt 11
Aufgabe 11.1. Sei K Körper und a1 , . . . , an ∈ K. Beweise für die VandermondeMatrix:


1
1
···
1
 a1
a2
an 

 Y
det Vn (a1 , . . . , an ) = det  ..
(ai − aj ) .
..
..  =
 .
.
.  i>j
· · · ann−1
an−1
an−1
2
1
Hinweis: Beweis durch Induktion über n. Subtrahiere a1 · Zeilei−1 von Zeilei .
Aufgabe 11.2. Sei LA : Rn → Rn , LA (x) = Ax, die lineare Abbildung zu A ∈
Mn,n (R). Ferner sei P = P (b1 , . . . , bn ) ⊂ Rn ein Parallelflach. Zeige:
vol LA (P ) = |det A| · vol P.
Hinweis: Benutze die Multiplikativität der Determinante.
t
Aufgabe 11.3. Es seien U1 , ..., Ut und ⊕ Ui := {(u1 , ..., ut ) | ui ∈ Ui } K-Vektorräui=1
me. Zeige: Genau dann ist U ∼
= ⊕t Ui , wenn es Monomorphismen hi : Ui → U für
i=1
226
B. Übungsaufgaben
i = 1, . . . , t gibt, so dass jedes u ∈ U eindeutig zerlegbar ist als u =
ui ∈ Ui .
Pt
i=1 hi (ui )
mit
Zusatz (2 Punkte): Zeige die Äquivalenz für Ringe und additive Gruppen anstelle von
Vektorräumen.
Aufgabe 11.4 (2 zusätzliche Punkte). Sei n
Zahlen q1 , q2 . Ferner seien α1 , α2 ∈ Zn gegeben
(
1
αi mod qj =
0
= q1 q2 Produkt zweier teilerfremder
mit
i=j
i 6= j.
Zeige: Zn ∼
= Zq1 × Zq2 .
Hinweis: Benutze die Äquivalenz von Aufgabe 11.3 für Ringe und gib entsprechende Monomorphismen hi : Zqi → Zn , i = 1, 2 an. Zu zeigen ist die eindeutige
Zerlegbarkeit u = h1 (u1 ) + h2 (u2 ) von u ∈ Zn .
12. Übungsblatt 12
Aufgabe 12.1 (2 Punkte). Vergleiche die Eigenschaften (D1), (D2) einer Determinantenfunktion und (D3’) : rang(A) < n =⇒ det A = 0, (D5) : Linearität in jeder
Zeile. Zeige: (D2), (D3’), (D5) =⇒ (D1).
Aufgabe 12.2. Es seien b1 , b2 , . . . , bn ∈ Rn linear unabhängig. Zeige, dass man das
Orthogonalsystem b∗1 , b∗2 , . . . , b∗n ∈ Rn wie folgt erhält:
P
(b∗j )T bi
∗
b∗1 := b1 und rekursiv für i = 2, ..., n: b∗i := bi − i−1
j=1 µi,j bj mit µi,j := kb∗ k2 .
j
Zu zeigen:
b∗i
∈ span(b1 , . . . , bi−1
)⊥
und bi −
b∗i
∈ span(b1 , ..., bi ).
Aufgabe 12.3. Zeige mit den Bezeichnungen von Aufgabe 2:
a) [b1 , ..., bn ] = [b∗1 , ..., b∗n ] [µi,j ]T .
b) µi,j = 0 für i < j und µi,i = 1 für i = 1, . . . , n.
c) b∗i ⊥ b∗j für i 6= j.
Aufgabe 12.4. Sei σ ∈ Sn und τ eine Nachbartransposition. Zeige, dass für die
Anzahl der Fehlstände f (τ σ) = f (σ) ± 1 gilt.
Aufgabe 12.5. Zeige, dass für σ ∈ Sn folgende Aussagen äquivalent sind:
a) f (σ) ist gerade.
b) Sind τ1 , τ2 , . . . , τn Nachbartranspositionen mit σ = τ1 τ2 · · · τn , so ist n gerade.
c) σ ist das Produkt einer geraden Anzahl von Nachbartranspositionen.
Hinweis: Benutze Aufgabe 12.4. Zusatz (2 Punkte): Zeige, dass die Äquivalenzen auch
gelten, wenn man in b) beliebige Transpositionen τ1 , ..., τn zuläßt.
15. Übungsblatt 15
227
13. Übungsblatt 13
Aufgabe 13.1. Sei Z = {x ∈ Rn | Ax ≥ b } mit A ∈ Rm×n und b ∈ Rm . Zeige: Zu
y ∈ Z sind folgende Aussagen äquivalent:
a) A enthält n linear unabhängige Zeilen Ai mit Ai y = bi ,
b) y ist eine Ecke von Z.
Aufgabe 13.2. Beweise Satz 12.16 und Satz 12.17 aus der Vorlesung:
a) Jedes Polyeder P ⊂ Rn ist disjunkte Vereinigung von endlich vielen Simplizes.
b) Jedes Polyeder im Rn ist Durchschnitt von endlich vielen Halbräumen.
Aufgabe 13.3. Zeige:
a) Für beliebige Mengen C1 , . . . , Cm ⊆ Rn gilt:
!
!
m
m
[
[
kon
kon(Ci ) = kon
Ci .
i=1
i=1
Rn
b) Sei K ⊆
konvexe Hülle endlich vieler Punkte. Jeder Punkt p ∈ K ist
Konvexkombination von n + 1 der gegebenen Punkte.
14. Übungsblatt 14
aff
Aufgabe 14.1. Sei K = K 0 mit der affinen Bijektion φ. Zeige:
a) K konvex
⇒
K 0 konvex.
b) φ(E(K)) = E(φ(K)).
Aufgabe 14.2. Transformiere das allgemeine LP-Problem mit x, c, ai , ai ∈ Rn
min cT x
mit
aTi x = bi für i ∈ M
ai x ≥ bi für i ∈ M
xj ≥ 0 für j ∈ N
(xj mit j ∈ N sind freie Variable) in die kanonische Form. Zeige, dass die Zulässigkeitsbereiche bei der Transformation affin isomorph bleiben. Gib entsprechende affine
Bijektionen an.
Aufgabe 14.3. Transformiere das allgemeine LP-Problem von Aufgabe 14.2 in die
Standardform. Zeige, dass die Zulässigkeitsbereiche bei der Transformation affin isomorph bleiben. Gib entsprechende affine Bijektionen an.
15. Übungsblatt 15
Aufgabe 15.1. Sei M ⊂ Rn ,M 6= ∅. Zeige:
k ∈ N, λi ∈ R,
Pk
Pk
a) aff(M ) =
.
i=1 λi pi pi ∈ M,
i=1 λi = 1
o
nP
k
b) cone(M ) =
λ
p
k
∈
N,
λ
∈
R
,
p
∈
M
.
i
i
i
≥0
i
i=1
228
B. Übungsaufgaben
Aufgabe 15.2. Sei P ⊆ Rn ein Polyhedron mit E(P ) 6= ∅ und f : Rn → R linear mit
inf x∈P f (x) > −∞. Zeige: p ∈ E(P ) ist Minimalstelle von f gdw. es keine Nachbarecke
q zu p gibt mit f (q) < f (p) (q ist Nachbarecke zu p, wenn [p, q] Kante von P ist).
Beachte auch Sonderfälle, wie E(P ) = {p}.
Aufgabe 15.3. Zeige:
a) Sind Ci für i ∈ I endlich viele, endlich erzeugte Kegel, dann auch
T
Ci .
i∈I
b) Zu A ∈ Rm×n ist {x ∈ Rn | Ax ≤ 0 } ein endlich erzeugter Kegel.
16. Übungsblatt 16
Aufgabe 16.1. Zeige: Jedes Polyhedron P = {x ∈ Rn | Ax ≤ b } mit A ∈ Rm×n und
b ∈ Rm ist Summe P = Q + C eines Polyeders Q und eines polyhedralen Kegels C.
Hinweis: Zeige, es gibt endlich viele λxii ∈ Rn+1 , λi ∈ {0, 1} für i = 1, . . . , k, mit
a) λx ∈ Rn+1 Ax − λb ≤ 0, λ ≥ 0 = cone λx11 , . . . , λxkk
b) P = kon(xi | λi = 1) + cone(xi | λi = 0).
Aufgabe 16.2. Sei Q ⊆ Rn ein Polyeder und C ⊆ Rn ein endlich erzeugter Kegel.
Zeige: Q+C ist Polyhedron. Hinweis: Sei Q := kon(x1 , ..., xk ), C :=cone(y1 , .. . , ym ).
Zeige und benutze: x0 ∈ Q + C gdw. x10 ∈ cone x11 , . . . , x1k , y01 , . . . , y0m .
Aufgabe 16.3. Beweise den Dualitätssatz für die Standardform (Korollar 13.20)
LPstd
minimiere cT x,
so dass Ax = b
x ≥0
und das zugehörige duale Programm:
LP* std
maximiere bT y,
so dass AT y + s = c
s ≥ 0.
17. Übungsblatt 17
Aufgabe 17.1. Beweise Satz 13.14 aus der Vorlesung. Für den Zulässigkeitsbereich
Zstd gilt:
a) Zwei Ecken p, p0 ∈ E(Zstd ), p 6= p0 , sind genau dann benachbart, d.h. [p, p0 ] ist
eine Kante von Zstd , wenn zulässige, benachbarte Basis-Nichtbasis-Partitionen
(B, N ), (B 0 , N 0 ) mit p = Φ(B, N ) und p0 = Φ(B 0 , N 0 ) existieren.
b) Falls für zwei zulässige, benachbarte Basis-Nichtbasis-Partitionen (B, N ) und
(B 0 , N 0 ) die Basislösungen Φ(B, N ) und Φ(B 0 , N 0 ) nicht benachbart sind, gilt
Φ(B, N ) = Φ(B 0 , N 0 ) und die Ecke ist degeneriert.
Aufgabe 17.2. Löse folgendes lineares Programm per Hand mit Hilfe des SimplexTableaus: Minimiere −x1 − 2x2 , so dass
−2x1 + x2
−x1 + x2
x1
x1 , x2
≤ 2
≤ 3
≤ 3
≥ 0.
19. Übungsblatt 19
229
Zeichne den Lösungspolyhedron und markiere die jeweils zum Simplex-Tableau gehörende Basislösung bzw. Ecke.
Aufgabe 17.3. Beweise folgende Variante des Farkas Lemmas (Korollar 12.44). Für
A ∈ Rm×n , b ∈ Rn sind folgende Aussagen äquivalent:
a) ∃x : Ax ≤ b.
b) ∀y ≥ 0 mit y T A = 0 gilt y T b ≥ 0.
Hinweis: Wende Variante I von Farkas’ Lemma (Korollar 12.43 aud Seite 149) an
auf A0 := (Im , A, −A).
18. Übungsblatt 18
Aufgabe 18.1. Zeige das Trennungslemma für Kegel: Zu a1 , . . . , am , b ∈ Rn mit
rang(a1 , . . . , am , b) = t sind folgende Aussagen äquivalent:
a) b 6∈ KH(a1 , . . . , am ),
b) Es gibt ein c ∈ Rn mit cT b < 0, cT a1 ≥ 0, . . . , cT am ≥ 0 und cT ai = 0 für
t − 1 linear unabhängige ai .
Aufgabe 18.2. Ein Kegel mit Spitze ist ein Kegel mit Ecke 0 und Dimension ≥ 1.
Sei fi die Anzahl der Seiten der Dimension i. Zeige:
(
d
X
1 für Polyeder und Kegel ohne Spitze der Dimension ≤ d
(−1)i fi =
0 für Kegel mit Spitze der Dimension ≤ d.
i=0
Benutze die eulersche Polyederformel für beliebige Polyeder.
P
Aufgabe 18.3. Beweise die eulersche Polyederformel di=0 (−1)i fi = 1 für beliebige
d-Polyeder durch Induktion über die Anzahl # E(P ) der Ecken mit Verankerung bei
# E(P ) = 1. Hinweis: Seien e1 , e2 benachbarte Ecken und das Polyeder P 0 entstehe
P
aus P durch Verschmelzen von e1 , e2 . Zeige: di=0 (−1)i (fi − fi0 ) = 0.
19. Übungsblatt 19
Aufgabe 19.1. Sei Cn der C-Vektorraum mit dem kanonischen Skalarprodukt h·, ·i.
Beweise die Cauchy-Schwarz’sche Ungleichung:
| hv, wi | ≤ kvk · kwk
Reduziere auf den Fall v, w ∈ C2 mit v ∈ C(1, 0)T .
Aufgabe 19.2. Sei C([0, 2π], R) der R-Vektorraum der 2π-periodischen, stetigen Funktionen,
√
B := { 21 2} ∪ {cos kx | k ∈ Z \ {0} } ∪ {sin kx | k ∈ Z \ {0} }
R 2π
und hf, gi := π1 0 f (x)g(x)dx. Zeige:
a) B ist eine Orthonormalbasis.
n
√
P
b) Für f (x) = a20 2 +
(ak cos kx + bk sin kx) gilt ak = hf, cos kxi und bk =
k=1
hf, sin kxi. Die ak und bk heißen Fourierkoeffizienten von f .
230
B. Übungsaufgaben
Aufgabe 19.3. Sei f ∈ C([0, 2π], R) mit Fourierkoeffizienten ak , bk wie in Aufgabe
19.2. Zeige die Bessel’sche Ungleichung:
∞
kf k2 ≥
a20 X 2
+
(ak + b2k ).
2
k=1
20. Übungsblatt 20
Aufgabe 20.1. Zeige das Determinanten-Multiplikation-Theorem (Fakt 14.23) für
den Fall, dass
A = [ei1 , . . . , ein ]>
mit 1 ≤ i1 , . . . , in ≤ m.
Dabei sei ej ∈ Km der j-te Einheitsvektor. Hinweis: [Fischer97, 3.3.7].
Aufgabe 20.2. Sei A ∈ O2 (R) eine orthogonale Matrix. Zeige, dass
cos α − sin α
cos α sin α
A=
oder
A=
sin α cos α
sin α − cos α
für genau ein α ∈ [0, 2π[ und genau einen der beiden Fälle. Interpretiere A im ersten
Fall als Drehung und im zweiten Fall als Spiegelung an einer Geraden.
Aufgabe 20.3. Sei A = (In , a) ∈ Kn×(n×1) mit a ∈ Kn . Zeige det AAT = 1 + aT a.
Beweise auch das Determinanten-Multiplikations-Theorem für diesen Spezialfall.
21. Übungsblatt 21
Aufgabe 21.1. Sei K ein Körper der Charakteristik ungleich 2, d.h. 1 + 1 6= 0. Sei
A ∈ Mn,n (K) symmetrisch mit A 6= 0. Zeige: Es gibt ein T ∈ Mn,n (K) mit det T 6= 0,
so dass für A0 = T T AT gilt a011 6= 0. Vorschlag:
(1) Falls a1,1 = 0, vertausche die Zeilen/Spalten von A, so dass a1,2 = a2,1 6= 0.
(2) Löse das Problem für A0 = (ai,j )1≤i,j≤2 .
Aufgabe 21.2. Sei

0
0
A=
1
0
0
1
1
2
1
1
0
0

0
2
 ∈ Z4×4 .
3
0
2
Konstruiere T ∈ M4,4 (Z3 ) mit T T AT = D Diagonalmatrix.
Aufgabe 21.3 (6 Punkte). Beweise Satz 14.38 auf Seite 185. Zeige: Zu A ∈ On (R)
gibt es S ∈ On (R), so dass S T AS Diagonalkastenmatrix ist mit Kästen ±1 ∈ R1×1 ,
cos α − sin α
cos α sin α
,
∈ R2×2 .
sin α cos α
sin α − cos α
Hinweis: Als Nullstellen von χA kommen in Frage: ±1 und Paare konjugiert komplexer Zahlen λ, λ mit |λ| = 1. Sind z, z ∈ Cn Eigenvektoren zu λ, λ mit z = x + iy,
z = x − iy, dann ist hx, yi = 0 und x, y 6= 0. Siehe [Fischer97, 5.5.6].
22. Übungsblatt 22
231
22. Übungsblatt 22
Aufgabe 22.1. Sei A ∈ Mn,n (C) hermitesch. Zeige: A ist positiv definit gdw. alle Hauptminoren von A positiv sind. Die Hauptminoren von A = (ai,j )i≤i,j≤n sind
det(ai,j )1≤i,j≤m für m = 1, . . . , n. Hinweis: Wie verändern sich die Hauptminoren bei
der Hauptachsentransformation von Satz 14.24?
Aufgabe 22.2. Zeige für A ∈ Mn,n (C):
P
P
a) χA = ni=0 ci λi gdw. χA = ni=0 ci λi .
b) Ist A hermitesch, dann ist χA ∈ R[λ].
Aufgabe 22.3. A ∈ Cn×n heißt anti-hermitesch, wenn AT = −A. Zeige:
a) Ist A anti-hermitesch, dann auch T T AT .
b) Ist A anti-hermitesch, dann gibt es ein T ∈ GLn (C), so dass in T T AT
höchstens zwei Nebendiagonalen ungleich null sind.
Literaturverzeichnis
[AC78]
D. Avis und V. Chvátal: Notes on Bland’s Pivoting Rule, Mathematical Programming Study, Band 8, Seiten 23–34, 1978.
[Beu98]
A. Beutelspacher: Lineare Algebra, Vieweg, Braunschweig/Wiesbaden, dritte Auflage, 1998.
[Bland77]
R.G. Bland: New finite Pivoting Rules for the Simplex Method, Mathematics Operation Research, Band 2, Seiten 103–107,1977.
[Cassels71]
J.W.S. Cassels: An Introduction to the Geometry of Numbers, Springer-Verlag, Berlin/Heidelberg, 1971.
[CS93]
J.H. Conway und N.J.A. Sloane: Sphere Packings, Lattices and Groups, Springer,
New York, zweite Auflage, 1993.
[CJLOSS92]
M.J. Coster, A. Joux, B.A. LaMacchina, A.M. Odlyzko, C.P. Schnorr und
J. Stern: An improved low-density Subset Sum Algorithm, Computational Complexity,
Band 2, Seiten 111–128, 1982.
[Dantzig51]
G.B. Dantzig: Maximization of a Linear Function of Variables Subject to Linear
Inequalities, in T. Koopmans (Hrsg): Activity Analysis of Production and Allocation,
Seiten 339–347, John-Wiley & Sons, New York, 1951.
[Dantzig66]
G.B. Dantzig: Lineare Programmierung und Erweiterungen, Springer-Verlag, Berlin/Heidelberg, 1966.
[Dantzig83]
G.B. Dantzig: Reminiscences About the Origins of Linear Programming, in A. Bachem, M. Grötschel und B. Korte (Hrsg.): Mathematical Programming: The State of
of Art, Springer-Verlag, Berlin/Heidelberg, 1983.
[Fischer92]
G. Fischer: Analytische Geometrie, Vieweg Studium — Grundkurs Mathematik,
Vieweg Verlag, Wiesbaden, 1992.
[Fischer97]
G. Fischer: Lineare Algebra, Vieweg, Braunschweig/Wiesbaden, 11.te Auflage, 1997.
[Forster92]
O. Forster: Analysis 1, Vieweg, Braunschweig/Wiesbaden, vierte Auflage, 1992.
[FS78]
G. Fischer und R. Sacher: Einführung in die Algebra, Teubner, Stuttgart, zweite
Auflage, 1978.
[G86]
F.R. Gantmacher: Matrizentheorie, Springer, Berlin/Heidelberg, , 1986.
[GL96]
G. H. Golub und C. F. van Loan: Matrix Computations, John Hopkins University
Press, Baltimore und London, dritte Auflage, 1996.
[Jänrich96]
K. Jänich: Lineare Algebra, Springer, Berlin/Heidelberg, sechste Auflage, 1996.
[Karloff91]
H. Karloff: Linear Programming, Progress in Theoretical Computer Science,
Birkhäuser, Boston, 1991.
233
234
Literaturverzeichnis
[Ka84]
N.K. Karmakar: A new Polynomial-Time Algorithm for Linear Programming, Combinatorica, Band 4, Seiten 373-395, 1984.
[Kh79]
L.G. Khachiyan: A Polynomial-Time Algorithm for Linear Programming, Doklady
Akademiia Nauk USSR, Band 244, Seiten 1093–1096, 1979. Englische Übersetzung in
Soviet Mathematics Doklady, Band 20, Seiten 191–194, 1980.
[KM72]
V. Klee und G.J. Minty: How good is the Simplex Algorithms?, in O. Sisha (Hrsg.):
Inequalities, Band III, Academic Press, New York, Seiten 159–175, 1972.
[Koe83]
M. Koecher: Lineare
lin/Heidelberg, 1983.
[LaOd85]
J.C. Lagarias und A.M. Odlyzko : Solving low-density Subset Sum Problems, Journal of ACM, Band 32, Nr. 1, Seiten 229–246, 1985.
[LLL82]
A.K. Lenstra, H.W. Lenstra und L. Lovász: Factoring Polynomials with Rational
Coefficients, Springer Mathematische Annalen, Band 261, Seiten 515–534, 1982.
[Lint98]
J.H. van Lint: Introduction to Coding Theory, Springer, New York, dritte Auflage,
1998.
[MS86]
F. J. MacWilliams und N.J.A. Sloane: The Theory of Error Correcting Codes.
North-Holland, Amsterdam, fünfte Auflage, 1986.
[PS82]
C.H. Papadimitriou und K. Steiglitz: Combinatorical Optimization: Algorithms
and Complexity, Prentice-Hall, Eaglewood Cliffs, New Jersey, 1982.
[S86]
A. Schrijver: Theory of Linear and Integer Programming, Wiley-Interscience Series
in discrete Mathematics and Optimization, John Wiley & Son, New York, 1986.
[V97]
R.J. Vanderbei: Linear Programming: Foundations and Extensions, Kluwer Academic
Press, Bosten, 1997.
[W96]
J. Wolfart:
Einführung in die Zahlentheorie und Algebra. Vieweg, Braunschweig/Wiesbaden, 1996.
Algebra
und
analytische
Geometrie,
Springer,
Ber-
Index
Abbildung
Homomorphismus, 23
lineare, 63
Abel, Niels Hendrik, 21
Abstand, 118
Adjunkte, 101
affin
-er Halbraum, 135
-e Hülle, 135
isomorph, 140
unabhängig, 135
-er Untervektorraum, 31
Dimension, 135
Gerade, 31
parallel, 31
alternierende Gruppe, 97
Annulator, 175
Äquivalenzrelation, 28
Codes, 79
Matrizen, 105
Assoziativität, 13
Ausartungsraum, siehe Nullraum
Austauschsatz von Steinitz, 38
Automorphismus, 24
komplexe Zahlen, 25
Basis, 34
Darstellung, 35
-ergänzungssatz, 38
Gitter-, 76, 201
Isomorphismus, 35
-lösung, 157
benachbarte Ecke, 161
-matrix, 77, 202
Orthogonal-, 125
Orthonormal-, 125
Standard-, 34
-variable, 157
-wechsel, 68
Basis-Nichtbasis-Partition, 157
zulässige, 157
Begleitmatrix, 114
benachbarte Ecke, 161
Bessel’sche Ungleichung, 230
Betragsnorm, 117
Big-M-Simplex-Algorithmus, 163
Bild, 64
Bilinearform, 176
degeneriert, 183
indefinit, 183
negativ definit, 183
Nullraum, 183
positiv definit, 176
Rang, 177
Zerlegung Vektorraum, 190
Binomialkoeffizient, 151
BNP, siehe Basis-Nichtbasis-Partition
C, siehe komplexe Zahlen
Cardano, Geronimo, 16
Cauchy-Schwarz-Ungleichung, 118, 123, 179
Charakteristik, 191
charakteristisches Polynom, 110, 111
Chinesischer Restsatz, 88
Cone, siehe Kegel
Cosinussatz, 125
Cramer’sche Regel, 102
Cycling, 162
Dantzig, Georg, 154
Darstellungsmatrix, 68
Transformationsformel, 68, 177
Definitheit, positive, 117, 176, 177
Degeneration, 158
Bilinearform, 183
Simplex-Tableau, 168
Descartes, René, 4
Determinante, 95
Berechnung, 95
Diagonalmatrix, 95
Eindeutigkeit, 94
236
Entwicklungssatz von Laplace, 100
-nfunktion, 92
Gitter-, 202
Leibnizformel, 97
Multilinearitat, 93
Multiplikationstheorem, 180
Multiplikativität, 103
transponierte Matrix, 99
diagonalisierbare Matrix, 106
Dimension
-sformel
lineare Abbildung, 64
-ssatz, 39
Vektorraum, 37
Diophantische Approximation, 207
direkte Summe
externe, 85
innere, 85
direktes Produkt, 85, 88
diskret, 201
Distanz, 118
Division mit Rest, 26, 48
Divisionsring, siehe Schiefkörper
Dreiecksmatrix, 11
Dreiecksungleichung, 117
dual
-e Basis, 174
-er Code, 78
-er Kegel, 146
-es Programm, 169
-er Vektorraum, 173, 174
Dualität
schwache, 170
starke, 170, 171
Vektorraum, 173
Ecke
benachbarte, 161
degeneriert, 158
Polyhedron, 139
Eigenraum, 108
Eigenvektor, 106
Eigenwert, 106
Vielfachheit, 112
Eindeutigkeit
Einselement, 14, 22
Inverses, 14, 22
Nullelement, 14
Einheit, siehe Einselement
Einheitengruppe, 22
Einheits
-matrix, 10
-vektor, 33
Einselement, 13
Einsetzungshomomorphismus, 47
Elementarmatrix, 10
Index
Eliminationsverfahren, siehe Gauß-Algo.
Endomorphismus, 24
Hauptachsentheorem, 186
orthogonaler, 184
selbstadjungiert, 186
unitärer, 184
Epimorphismus, 24
Erzeugendensystem, 33
minimales, 34
erzeugendes Element, siehe Generator
Erzeugnis, siehe lineare Hülle
Euklid, 18
euklidische
Länge, 89
Norm, 117
-r Vektorraum, 122, 179
Euler, Leonhard, 17
Extremalpunkt, 136
Faktorring, 26, 50
Faltung, 44
Fehlstand, 96
Fläche
Polyhedron, 139
Fourierkoeffizient, 229
Fq , 16
freie Variable, 153
Frobenius-Homomorphismus, 192
Frobenius-Norm, 119
Fundamentalsatz der Algebra, 52
Funktion
konkave, 143
konvexe, 142
Galois, Evariste, 16
Galoisfeld, 16
Gauß, Carl Friedrich, 4, 18, 52
Gauß-Algorithmus, 3
Gauß’sche Zahlenebene, 17
Generator
Gruppe, 198
-matrix, 77
Generatormatrix
kanonische, 79
Gerade, 31
Halb-, 141
Gitter, 76, 201
-basis, 76, 201
Basismatrix, 202
-determinante, 202
Grundmasche, 203
Rang, 201
gitterartige Kugelpackung, 76
GLn , 22, 128
Grad
Polynom, 42
Index
Gram-Matrix, 202
Gram-Schmidt-Koeffizient, 126
Grundmasche, 203
Gruppe, 21
abelsche, 21
alternierende, 97
Generator, 198
Homomorphismus, 23
kommutative, 21
Ordnung eines Elementes, 198
orthogonale Matrizen, 128
primitives Element, 198
symmetrische, 96
Unter-, 23
zyklisch, 198
Halbgerade, 141
Halbgruppe, 21
Homomorphismus, 24
Halbraum, 135
Hamilton, William Rowan, 20
Hamming
-Code, 80
-Distanz, 72
-Gewicht, 72
-Radius, 73
Hamming, Richard W., 72, 80
Hauptachsentheorem, 186
Hauptachsentrandformation
symmetrische Matrizen, 181
Hauptminor, 231
hermitesch
-Form
positiv definit, 178
-e Form, 178
-e Matrix, 178
hermitesche
anti-, 231
Hölder’sche Ungleichung, 118
Homogenität
positive, 117
Homomorphieprinzip, 24
Homomorphismus, 23
Bild, 24
Frobenius-, 192
Gruppen-, 23
Halbgruppen-, 24
Kern, 24
Körper, 24
Monoid-, 24
Ring-, 24
Hyperebene, 31
imaginäre Einheit, 17
Imaginärteil, 17
indefinit
237
Bilinearform, 183
Injektion, 86
Integritätsbereich, siehe Intergritätsring
Intergritätsring, 19
Interpolationspolynom, 55
Lagrange’sche Form, 56
Interpolationsproblem, 55
Inverses, 13
irreduzibles Polynom, 195
Isometrie, siehe orthog. Endomorhismus
isometrische Abbildung, 127, 184
isomorph, 25
affin, 140
Isomorphismus, 24
affiner, 140
Iwasawa-Zerlegung, 129
Jordan-Kästchen, 106, 113
Jordan-Normalform, 116
kanonische Form, 154
duales Programm, 169
Kante
Polyhedron, 139
Kantorvicz, L.V., 154
kartesisch
-e Koordinaten, 4
-es Produkt, 85
Kästchensatz, 104
Kegel, 145
dualer, 146
endlich erzeugter, 146
Kepler, Johannes, 77
Kern, 64
Kodierungstheorie, 71
Koeffizient, 3
Kommutativität, 13
komplementäre Matrix, 101
komplementäre Slackness, 171
komplexe Konjugation, 25
komplexe Zahlen, 16
imäginare Einheit, 17
Imaginärteil, 17
Polarkoordinaten, 17
Realteil, 17
komplexer Vektorraum, 178
Skalarprodukt, 178
Komposition, 22
kongruent, 28
konjugiert komplexe Zahl, 25
konkave Funktion, 143
Kontrollmatrix, siehe PCH-Matrix
Konvergenz
quadratische, 121
konvexe
Funktion, 142
238
Hülle, 133
Menge, 133
Extremalpunkt, 136
Konvexkombination, 133
Konvolution, 44
Koopmans, T.C., 154
Koordinaten
-funktion, 68
Koordinatenvektor, 35
Körper, 13, 22
angeordnet, 15
Charakteristik, 191
endlicher, 16
-Homomorphismus, 24
komplexe Zahlen, 16
Prim-, 193
Unter-, 19
Zerfällungs-, 196
Kostenfunktion, siehe Zielfunktion
Kreisen, 162
Kronecker-Symbol, 10
Kugel, 73, 119
Lagarias, J.C., 209
Lagrange-Koeffizient, 57
Laplace’scher Entwicklungssatz, 100
Laplace, Pierre Simon, 100
Leibniz, Gottfried Wilhelm, 97
LGS, siehe lineares Gleichungssystem
Dimension homogener, 62
linear abhängig, 33
linear unabhängig, 33
lineare Abbildung, 63
Basiswechsel, 68
charakteristisches Polynom, 111
Darstellungsmatrix, 68
Dimensionsformel, 64
Eigenvektor, 106
Eigenwert, 106
isometrische, 127, 184
orthogonale, 127, 184
Projektion, 84
Rang, 65
Vektorraum, 63
lineare Gleichung, 3
lineare Hülle, 32
linearer Code, 71, 72
äquivalenter, 79
Basismatrix, 77
binärer, 72
Dekodierung, 72
dualer Code, 78
t-fehlererkennend, 73
t-fehlerkorrigierend, 73
Generatormatrix, 77
guter, 74
Index
Hamming-Code, 80
Hamming-Distanz, 72
Hamming-Gewicht, 72
Informationsbits, 74
Informationsrate, 74
Korrekturbits, 74
Korrekturrate, 74
Minimalabstand, 72
Minimalgewicht, 73
Paritätscode, 75
PCH-Matrix, 79
Singleton-Schranke, 225
t-perfekter, 76
linearer Raum, siehe Vektorraum
lineares Gleichungssystem
Lösungsmenge, 4
lineares Gleichungssystem, 3
Cramer’sche Regel, 102
Gauß-Algorithmus, 3
homogenes, 8
Treppenform, 5
Vektorraum, 32
lineares Programm
duales, 169
kanonische Form, 154
Optimalitätskriterium, 160
Standardform, 155
widersprüchliches, 155
zulässiges, 155
Linearform, 174
Linearkombination, 32
LosungsmengeLösungsmenge
lineares Gleichungssystem, 4
lineares Programm, 155
Manigfaltigkeit, 175
Matrix, 3
Adjunkte, 101
ähnliche, 105
anti-hermitesch, 231
Äquivalenzrelation, 105, 189
Begleit-, 114
blockdiagonale, 114
charakteristisches Polynom, 110
Darstellungsmatrix, 68
Determinante, 95
diagonalisierbar, 106
Dreiecks-, 11
Eigenvektor, 106
Eigenwert, 106
Einheits-, 10
Elementar-, 10
erweiterte, 4
Gruppen, 128
hermitesche, 178
invertieren, 38, 95, 101
Index
Iwasawa-Zerlegung, 129
Jordan-Normalform, 116
komplementäre Matrix, 101
kongruente, 189
Minor, 101
-norm, 119
Submultiplikativität, 120
Normalform, 114
orthogonale, 127, 184
Permutations-, 12
positiv definit, 177, 178
Produkt, 9
Rang, 60
Spaltenrang, 59
Spaltenraum, 59
Streichungs-, 100
symmetrische
Hauptachsentransformation, 181
Trägheitsindex, 189
transponierte, 220
Treppenform, 5
unitäre, 184
Vandermonde-Matrix, 56, 101
Zeilenrang, 59
Zeilenraum, 59
Maximum-Likelihood-Dekodierung, 72
Maximumsnorm, 117
Mehrdeutigkeit
Simplex-Tableau, 168
Metrik, 118
Minimal
-abstand, 72
-Distanz-Dekodierung, 72
-gewicht, 73
Minimalestelle
lokale, 142
Minkowski, Hermann, 137
Minor, 101
modulo, 26
Monoid, 21
Homomorphismus, 24
Monom, 41
Monomorphismus, 24
multilineare Funktion, 93
Nachbartransposition, 96
negativ definit
Bilinearform, 183
von Neumann, John, 169
Nichtbasisvariable, 157
Nichtnegativitätsbedingung, 153
Norm, 117
Äquivalenz, 118
Betrags-, 117
Euklidische, 117
Frobenius-, 119
239
Matrix-, 119
Maximums-, 117
Normalform, 114
Jordan-, 116
selbstadjungierter Endomorphismus, 186
Nullelement, 13
Nullpolynom, 41
Nullraum
Bilinearform, 183
Nullstelle, 51
Nullstellenmenge, 175
Nullteiler, 14
Odlyzko, A.M., 209
Orthogonal
-basis, 125
-es Komplement, 125
-raum, 78, 83
-vektoren, 90
orthogonal
-e Abbildung, 127, 184
-er Endomorhismus, 184
-e Gruppe, 128
-es Komplement, 83
-e Matrix, 127, 184
-e Projektion, 84
Orthogonalisierung
Gram-Schmidt-Koeffizient, 126
Schmidt’sches Verfahren, 126
Orthogonalität, 78, 125
Orthonormal
-basis, 125
-system, 125
Packungsdichte, 76
parallel, 31
Parallelepiped, 90
Parallelflach, siehe Parallelepiped
Parallelogrammgleichung, 125
Parallelotop, siehe Parallelepiped
PCH-Matrix, 79
kanonische, 79
Permutation, 95, 96
alternierende Gruppe, 97
Fehlstand, 96
gerade, 97
-smatrix, 12
Nachbartransposition, 96
Signum, 97
symmetrische Gruppe, 96
Transposition, 96
ungerade, 97
Pivot-Regel, 161
Best-Improvement-Regel, 161
Blands, 162
Nonbasic-Gradient-Methode, 161
240
Pivot-Wahl, 161
Pivotelement, 7
Polarkoordinaten, 17
Polyeder
-formel, 150
konvexer, 135
Polygon, 135
Polyhedral, 145
Polyhedron, 135
Dimension, 135
Ecke, 136, 139
Fläche, 139
Kante, 139
Seite, 138
Polynom, 41
Begleitmatrix, 114
charakteristisches, 110
Division mit Rest, 48
Einsetzungshomomorphismus, 47
Faktorring, 50
führender Koeffizient, 42
Gleichheit, 42
Gradformel, 45
-ideal, 175
Interpolations-, 55
irreduzibles, 195
Koeffizientenvektor, 43
konstantes, 42
Lagrange-Koeffizient, 57
Linearfaktor, 51
normiertes, 42, 114
Null-, 41
Nullstelle, 51
Produkt, 44
-Ring, 46
Skalarmultiplikation, 43
Summe, 43
-vektorraum, 44
Wurzel, 51
Zerfall in Linearfaktoren, 52
Polytope, 135
positiv definit
Bilinearform, 176
hermitesche Form, 178
Matrix, 177, 178
Primkörper, 193
Projektion, 84
Prüfmatrix, siehe PCH-Matrix
quadratische Form, 179
Quaternionen-Schiefkörper, 20
Radikalideal, 175
Rang, 60
Bilinearform, 177
Gitter, 201
Index
linearen Abbildung, 65
Realteil, 17
Repräsentant
Restklasse, 26
Rest, 26, 48
Restklasse, 26
Repräsentant, 26
Richtungsraum, 31, 135
Ring, 19, 23
-Homomorphismus, 24
Intergritäts-, 19
kommutativer, 19
mit Eins, 19
nullteilerfrei, 19
Polynom-, 46
Unter-, 20
Rucksack-Problem, 208
Ruffini, 51
Satz
Cayley-Hamilton, 116
Fundamentalsatz der Algebra, 52
Ruffini, 51
Trägheits-, 189
Schattenpreis, 160
Schiefkörper, 20
Quaternionen-, 20
Schlupfvariable, 155
Schmidt-Orthogonalisierungsverfahren, 126
Seite
Polyhedron, 138
selbstadjungierter Endomorphismus, 186
Hauptachsentheorem, 186
Sesquilinearform, 178
Signum, 97
Simplex, 135
Simplex-Algorithmus
Big-M-, 163
Tableau, 164
Simplex-Tableau
Kurzform, 168
Singleton-Schranke, 225
Skalarprodukt, 122, 176
kanonisches, 122, 178
komplexer Vektorraum, 178
Slack-Variable, 155
Spann, siehe lineare Hülle
Standardform, 155
Streichungsmatrix, 100
Stützebene, 138, 145
Submultiplikativität
Matrixnorm, 120
Subsetsum-Problem, siehe Rucksack-Problem
Sylvester
Trägheitssatz, 189
symmetrische Gruppe, 96
Index
Trägheitsindex, 189
Trägheitssatz, 189
Transformationsformel
Darstellungsmatrizen, 68, 177
transponierte Matrix, 220
Transposition, 96
Trennungslemma, 144
Treppenform, 5
Unbestimmte, 3, 41
Ungleichung
Bessel’sche, 230
Cauchy-Schwarzsche, 118, 123, 179
Dreiecks-, 117
Hölder’sche, 118
unitär
-e Abbildung, 184
-e Endomorhismus, 184
-e Matrix, 184
-er Vektorraum, 179
Unter
-körper, 19
-vektorraum, 31
affiner, 31, 135
Vandermonde-Matrix, 56, 101
Variable
freie, 6
gebundene, 6
Variablen-Splitting, 153
Vektor, 4
Einheitsvektor, 33
Länge, 89
-norm, 117
orthogonal, 125
Spalten-, 4
Zeilen, 4
Vektorraum, 29
Basis, 34
Dimension, 37
dualer, 173
Erzeugendensystem, 33
euklidischer, 122, 179
komplexer, 178
lineare Abbildung, 63
Metrik, 118
Norm, 117
Orthogonalbasis, 125
Orthogonalraum, 78, 83
Orthonormalbasis, 125
Polynom-, 44
Skalarprodukt, 122
unitärer, 179
Unter-, 31
Verbindungsstrecke, 133
Vielfachheit
241
Eigenwert, 112
Nullstelle, 51
Volumen, 91
widersprüchliches lineares Programm, 155
Winkel, 124
wohldefiniert, 27
Zerfällungskörper, 196
Zielfunktion, 153
relative, 159
Zn , 26
zulässiges lineares Programm, 155
Zwei-Phasen-Simplex-Algorithmus, 162
zyklische Gruppe, 198

Documentos relacionados