Lineare Algebra - Goethe
Transcrição
Lineare Algebra - Goethe
Skript Lineare Algebra Prof. Dr. C.P. Schnorr http://www.mi.informatik.uni-frankfurt.de Johann-Wolfgang-Goethe Universität Fachbereiche Mathematik und Informatik Frankfurt am Main 21. Juli 2000 Das vorliegende Skript ist eine Ausarbeitung der Vorlesungen Lineare Algebra I“ und ” Lineare Algebra II“ aus dem Wintersemester 1998/99 und Sommersemester 1999 an ” der Johann-Wolfgang-Goethe Universität, Frankfurt am Main. In der vorliegenen Version sind Fehler der Auflage vom 4.Jan.2000 behoben (dank der detailierten Fehlerliste von Thomas Rupp). Für Hinweise auf weitere Fehler sind wir weiterhin dankbar. Von Roger Fischlin, Marc Fischlin und Matthias Rupp 1999 überarbeitet und in LATEX 2ε gesetzt. Inhaltsverzeichnis Teil 1. Lineare Algebra I Kapitel 1. Lineare Gleichungssysteme 3 §1. Gauß-Algorithmus 3 §2. Gauß-Algorithmus und Matrizen 9 Kapitel 2. Körper, Ringe und Gruppen 13 §1. Körper 13 §2. Ringe und Schiefkörper 19 §3. Gruppen 21 §4. Homomorphismen 23 §5. Vom Ring Z abgeleitete Körper 26 Kapitel 3. Vektorräume 29 §1. Vektorraum und Untervektorraum 29 §2. Lineare Unabhängigkeit, Basen und Dimension 32 Kapitel 4. Polynome 41 §1. Vektorraum und Ring der Polynome 41 §2. Division mit Rest 48 §3. Nullstellen 51 §4. Interpolation 55 Kapitel 5. Der Rang von Matrizen 59 §1. Zeilenrang und Spaltenrang 59 §2. Rang und lineare Gleichungssysteme 61 Kapitel 6. Lineare Abbildungen §1. Eigenschaften 63 63 iii iv Inhaltsverzeichnis §2. Darstellende Matrix Kapitel 7. Lineare Codes 65 71 §1. Grundbegriffe 71 §2. Gitter und Kugelpackungen 76 §3. Generator- und PCH-Matrix 77 §4. Hamming-Codes 80 Kapitel 8. Direkte Summe 83 §1. Orthogonales Komplement 83 §2. Direkte Summe 85 Kapitel 9. Volumina und Determinanten 89 §1. Volumina 89 §2. Determinanten 92 §3. Permutationen und Leibniz’sche Determinantenformel 95 §4. Eigenschaften 99 Kapitel 10. Normalformen und Eigenwerte 105 §1. Eigenwerte und Eigenvektoren 105 §2. Charakteristisches Polynom 110 §3. Normalformen 114 Kapitel 11. Euklidische Vektorräume 117 §1. Vektornorm 117 §2. Matrixnorm 119 §3. Skalarprodukt 122 §4. Orthogonale Abbildungen und Matrizen 127 Teil 2. Lineare Algebra II Kapitel 12. Konvexe Geometrie 133 §1. Konvexe Mengen 133 §2. Funktionen über konvexen Mengen 142 §3. Kegel und Farkas’ Lemma 145 §4. Eulers Polyederformel 150 Kapitel 13. Lineare Programmierung 153 §1. Einleitung 153 §2. Ecken und Basislösungen 154 §3. Simplex-Algorithmus 159 §4. Simplex-Tableau 164 §5. Dualität 169 Inhaltsverzeichnis v Kapitel 14. Reelle und komplexe Vektorräume §1. Dualität linearer Räume §2. Bilineare, Sesquilineare und quadratische Formen §3. Hauptachsentransformation symmetrischer Matrizen §4. Unitäre Endomorphismen und Matrizen §5. Normalform selbstadjungierter Endomorphismen 173 173 176 181 184 186 Kapitel 15. Endliche Körper §1. Charakteristik §2. Primkörper §3. Konstruktion endlicher Körper §4. Struktur der multiplikativen Gruppe endlicher Körper 191 191 193 194 198 Kapitel 16. Gittertheorie §1. Gitter §2. Gitterreduktion 201 201 205 Anhang A. Grundbegriffe §1. Notationen §2. Logik §3. Beweistechniken §4. Mengen, Relationen und Funktionen 211 211 211 214 216 Anhang B. Übungsaufgaben §1. Übungsblatt 1 §2. Übungsblatt 2 §3. Übungsblatt 3 §4. Übungsblatt 4 §5. Übungsblatt 5 §6. Übungsblatt 6 §7. Übungsblatt 7 §8. Übungsblatt 8 §9. Übungsblatt 9 §10. Übungsblatt 10 §11. Übungsblatt 11 §12. Übungsblatt 12 §13. Übungsblatt 13 §14. Übungsblatt 14 §15. Übungsblatt 15 §16. Übungsblatt 16 §17. Übungsblatt 17 219 219 219 220 221 222 222 223 223 224 225 225 226 227 227 227 228 228 vi Inhaltsverzeichnis §18. Übungsblatt 18 229 §19. Übungsblatt 19 229 §20. Übungsblatt 20 230 §21. Übungsblatt 21 230 §22. Übungsblatt 22 231 Literaturverzeichnis 233 Index 235 Teil 1 Lineare Algebra I Kapitel 1 Lineare Gleichungssysteme Zum Lösen linearer Gleichungssysteme lernen wir mit dem Gauß-Verfahren einen wichtigen Algorithmus der linearen Algebra kennen. 1. Gauß-Algorithmus Wir betrachten lineare Gleichungen der Form a1 x1 + a2 x2 + . . . + an xn = b über den reellen Zahlen, d.h. mit a1 , . . . , an , b ∈ R. Dabei heißen a1 , . . . , an Koeffizienten und x1 , . . . , xn Unbestimmte oder Variable. Wir suchen reelle Zahlen, die die Gleichung erfüllen, setzt man sie für x1 , . . . , xn ein. Beim Übergang zu mehreren Gleichungen ergibt sich ein lineares Gleichungssystem (LGS) aus m Gleichungen in n Unbestimmten: a11 x1 + a12 x2 + · · · + a1n xn = b1 a21 x1 + a22 x2 + · · · + a2n xn = b2 .. .. .. .. . . . . am1 x1 + am2 x2 + · · · + amn xn = bm . (1) Um diese Darstellung eines linearen Gleichungssystems Pn zu vereinfachen, kann man die i-te Gleichungen mittels Summenzeichen als j=1 aij xj = bi schreiben. Statt jede der m Gleichungen einzeln anzugeben, verwendet man zur Notation von linearen Gleichungssystemen in der linearen Algebra üblicherweise Matrizen und Vektoren: Def inition 1.1 (Matrix). Ein rechteckiges Schema A aus m Zeilen und n Spalten mit Einträgen aij ∈ R heißt m × n-Matrix über R: a11 · · · a1n .. . A = (aij ) 1≤i≤m = ... . 1≤j≤n am1 · · · amn 3 4 1. Lineare Gleichungssysteme Im Fall m = n heißt A quadratische Matrix. Die Menge aller m × n Matrizen über R bezeichnen wir mit Mm,n (R) oder kurz Rm×n . Einspaltige Matrizen b ∈ Mm,1 (R) heißen Spaltenvektoren, einzeilige Matrizen b ∈ M1,m (R) Zeilenvektoren. Wenn aus dem Kontext hervorgeht, ob es ein Spaltenoder Zeilenvektor ist, nennen wir b kurz Vektor. Die Menge Mn,1 (R) = Rn×1 der reellwertigen Vektoren der Länge n bezeichnet man kurz als Rn , den Raum der nTupel reeller Zahlen. R3 ist zum Beispiel der uns umgebende Raum. In der Geometrie sprechen wir auch von kartesischen Koordinaten.1 Def inition 1.2 (Matrix-Vektor-Produkt). Sei A ∈ Mm,n (R) eine m × n-Matrix und x ∈ Rn ein Spaltenvektor. Das Matrix-Vektor-Produkt ist P n a x j=1 1j j m Ax = n ··· ∈ R , P amj xj j=1 der i-te Koeffizient von Ax ist das Produkt“ ” x. Pn j=1 aij xj der i-ten Zeile von A mit Das lineare Gleichungssystem (1) schreiben wir in Matrixform als a11 · · · a1n x1 b1 .. .. .. = .. . . . . am1 · · · amn xn (2) bm oder kurz Ax = b für gegebene A, b und dem gesuchten x. Dabei ist x ein Unbestimmtenvektor, dessen Koordinaten x1 , . . . , xn noch zu ermitteln sind. Mit Lös(A, b) := {x ∈ Rn | Ax = b } bezeichnen wir die Lösungsmenge des linearen Gleichungssystems Ax = b. Man fasst die Koeffizientenmatrix A und den Vektor b zur erweiterten Matrix (A, b) a11 · · · a1n b1 .. .. ∈ M (A, b) := ... m,n+1 (R) . . am1 · · · amn bm zusammen. Unser Ziel ist ein schnelles, mechanisches Verfahren zum Lösen von linearen Gleichungssystemen. Die Standardmethode ist ein auf C.F. Gauß2 zurückgehender Algorithmus, der auch die Basis zahlreicher Beweise der Vorlesung bildet. Wir überführen 1Zu Ehren von René Descartes, 1596–1650, einem Wegbereiter der Mathematik der Neuzeit. Er gilt als Begründer der systematischen analytischen Geometrie. Seine Schrift Géométrie“ gehörte ” zu den Grundlagen, auf denen Newton und Leibniz später aufbauten. 2 Carl Friedrich Gauß, 1777–1855, war der bedeutendste Mathematiker seiner Zeit. Er lieferte in den meisten Teilgebieten der Mathematik und der Physik wichtige Beiträge, beispielsweise in der Zahlentheorie und der Astronomie. Unter anderem gab er den ersten strengen Beweis für den Fundamentalsatz der Algebra. Die Gauß’sche Zahlenebene trägt seinen Namen. 1. Gauß-Algorithmus 5 die erweiterte Matrix (A, b) schrittweise in ein leicht lösbares lineares Gleichungssystem, ohne die Lösungsmenge Lös(A, b) zu ändern: Def inition 1.3 (Treppenform). Eine Matrix A ∈ Mm,n (R) ist in Treppenform mit r ≥ 0 Stufen, wenn a) a11 6= 0, . . . , arr 6= 0 b) aij = 0 für i > j und aij = 0 für i > r. Ein lineares Gleichungssystem Ax = b bzw. die erweitere Matrix (A, b) ist in Treppenform, wenn die zugehörige Koeffizientenmatrix A Treppenform hat. Eine Matrix in Treppenform mit a11 a12 0 ... .. .. . . 0 ··· 0 ··· .. . 0 ··· r Stufen hat folgende Gestalt: ··· ··· ··· · · · a1n .. .. . . .. .. .. . . . 0 arr ar,r+1 · · · arn ··· 0 0 ··· 0 .. . ··· ··· ··· ··· 0 Dabei können alle Einträge bis auf a11 , . . . , arr Null sein. Bei einem lineares Gleichungssystem in Treppenform 3x1 + 3x2 − x3 = 0 x2 + x3 = 4 2x3 = 6 kann man die Lösung unmittelbar ablesen: x3 := x1 := 0 − 3x2 + x3 = 0. 6 2 = 3, x2 := 4 − x3 = 1 und Lemma 1.4 (Lösung eines LGS in Treppenform). Sei A ∈ Mm,n (R) Matrix in Treppenform mit r ≥ 0 Stufen und b ∈ Rm . Dann gilt Lös(A, b) 6= ∅ ⇐⇒ br+1 = . . . = bm = 0. Beweis. Da die Koeffizientenmatrix A in Treppenform mit r ≥ 0 Stufen ist, hat das lineare Gleichungssystem folgende Form: a11 x1 + a12 x2 + · · · + a1r xr + · · · + a1n xn = b1 a22 x2 + · · · + a2r xr + · · · + a2n xn = b2 .. . arr xr + · · · + arn xn = br 0 = br+1 .. . 0 = bm 6 1. Lineare Gleichungssysteme Man sieht unmittelbar: Gibt es ein i ∈ {r + 1, . . . , m} mit bi 6= 0, dann hat das lineare Gleichungssystem keine Lösung, denn die i-te Gleichung ist nicht erfüllbar, so dass Lös(A, b) = ∅. Sei br+1 = . . . = bm = 0. Wir zeigen, dass dann Lös(A, b) 6= ∅ ist. Wähle beliebige xr+1 , . . . , xn ∈ R und berechne xr , xr−1 , . . . , x1 ∈ R induktiv gemäß: xr := (br − ar,r+1 xr+1 − . . . − arn xn )/arr xr−1 := (br−1 − ar−1,r xr − . . . − ar−1,n xn )/ar−1,r−1 .. . x1 := (b1 − a1,2 x2 − . . . − a1,n xn )/a11 . Die Division ist möglich, weil die Koeffizientenmatrix A in Treppenform mit r ≥ 0 Stufen ist, so dass aii 6= 0 für i = 1, . . . , r. Man überzeuge sich, dass x1 , . . . , xn eine Lösung des linearen Gleichungssystems ist. Diese Vorgehensweise, um zu einem linearen Gleichungssystem in Treppenform die Lösung zu ermitteln, entspricht dem aus der Schule bekannten Verfahren. Da durch eine Wahl der xr+1 , . . . , xn die restlichen xr , . . . , x1 eindeutig bestimmt sind, nennen wir xr+1 , . . . , xn freie (unabhängige) Variable und xr , . . . , x1 gebundene Variable des linearen Gleichungssystems. Sei A ∈ Mm,n (R) und b ∈ Rm . Um das lineare Gleichungssystem Ax = b auf Treppenform zu überführen, gehe iterativ vor. Durch Induktion über r zeigen wir: (A, b) läßt derart transformieren, dass die ersten r Spalten von A in Treppenform sind: • Die Induktionsverankerung für r = 0 ist trivial, denn die 0-te Spalte von A ist stets in Treppenform. • Nach Induktionsvoraussetzung sind die ersten penform: a11 a12 · · · ··· ··· . . .. .. 0 .. .. .. .. . . . . A = 0 ··· 0 a r−1,r−1 ar−1,r 0 ··· 0 0 ar,r .. .. .. . . . 0 ··· 0 0 am,r r − 1 Spalten von A in Trep··· ··· ··· ··· a1n .. . .. . ar−1,n ar,n .. . am,n Wir schließen von r − 1 auf r. Falls aij = 0 für alle i, j ≥ r, also ar,r · · · ar,n .. .. = 0, . . am,r · · · am,n ist A bereits in Treppenform mit r Spalten. Im anderen Fall gibt es einen Eintrag aij 6= 0 mit i, j ≥ r, und wir verfahren wie folgt: 1. Gauß-Algorithmus 7 (1) Vertausche Zeile und Spalte mit Indices größer oder gleich r, derart, dass dann arr 6= 0 ist (Der Wert arr heißt Pivotelement, man wählt einfache Pivotelemente, zum Beispiel 1). ir (2) Subtrahiere für i = r + 1, . . . , m das aarr -fache der r-ten Zeile von (A, b) von der i-ten Zeile. Dann gilt für die Elemente der r-ten Spalte mit Index i ≥ r: air aneu · arr = 0. ir = air − arr Die ersten r Spalten von A sind in Treppenform. Das Gauß-Verfahren beruht auf diesen drei Operationen: a) Zeilenoperation: Addiere das λ-fache der i-ten Zeile von (A, b) zur j-ten Zeile (λ ∈ R). b) Zeilenoperation: Vertausche die i-te und die j-te Zeile. c) Spaltenoperation: Vertausche die i-te und die j-te Spalte. Die Lösung des linearen Gleichungssystems Ax = b bleibt bei linearen Operationen, d.h. bei Addition einer Gleichung zu einer anderen und bei Multiplikation einer Gleichung mit einem Skalar ungleich Null, erhalten. Die Zeilenoperationen lassen die Lösungsmenge Lös(A, b) invariant, man spricht daher auch von Äquivalenztransformationen. Beim Vertauchen der Spalten i und j werden ebenfalls im Lösungsvektor die Koordinaten an den Stellen i und j vertauscht. Satz 1.5 (Gauß-Algorithmus). Sei A ∈ Mm,n (R) und b ∈ Rm . Dann transformiert der Gauß’sche Algorithmus (A, b) mit höchstens mn Zeilen- bzw. Spaltenoperationen in Treppenform. Man erhält Lös(A, b) in O(n2 m) arithmetischen Schritten.3 Bemerkung 1.6. Mit dem Gauß-Verfahren kann man nicht nur lineare Gleichungssysteme über den reellen Zahlen R, sondern jedem beliebigen Körper K lösen, denn Körper sind Zahlenbereiche, in denen man wie mir reellen Zahlen rechnet (wir gehen auf Körper in Kapitel 2 ein). Matrizen und Vektoren werden für beliebige Körper entsprechend erklärt. Wir demonstrieren den Gauß-Algorithmus anhand eines Beispieles: Beispiel 1.7. Betrachte folgendes, lineares Gleichungssystem Ax = b gegeben durch: x1 + 4x2 =10 4x1 +16x2 + 7x3 =33 2x1 + 8x2 −21x3 =41 Wir wenden den Gauß-Algorithmus auf die erweiterte Matrix 1 4 0 10 4 16 7 33 2 8 −21 41 3Eine Funktion f : N → N hat das Wachstum O(g(n)), wenn es eine Konstante c gibt, so dass f (n) ≤ c · g(n) für alle n ∈ N. In unserem Zusammenhang bedeutet dies, dass der Algorithmus höchstens cn2 m arithmetische Schritte für eine geeignete Konstante c ausführt. 8 1. Lineare Gleichungssysteme an, als Pivotelement wähle den ersten Eintrag Vierfache der ersten Zeile von der zweiten: 1 4 0 0 0 7 2 8 −21 Subtrahiere das Doppelte der ersten 1 0 0 in der ersten Zeile. Subtrahiere das 10 −7 41 Zeile von der dritten: 4 0 10 0 7 −7 0 −21 21 Vertausche die zweite mit der dritten Spalte: 1 0 4 10 0 7 0 −7 0 −21 0 21 Addiere das Dreifache der zweiten Zeile zur dritten: 1 0 4 10 0 7 0 −7 0 0 0 0 Wir lösen das transformierte, linearen Gleichungssystem (beachte die Spaltenvertauschung während des Gauß-Verfahrens) x1 + 4x2 = 10 7x3 =−7 0 · x2 = 0 mittels Lemma 1.4. Der Wert von x2 ist frei wählbar und • x3 = −1, denn 7x3 = −7, sowie • x1 + 4x2 = 10, denn x1 = 10 − 4x2 . 10 − 4λ Die Lösungsmenge ist: Lös(A, b) = λ −1 λ∈R . Man nennt ein lineares Gleichungssystem Ax = b homogen, falls b = 0, und inhomogen, falls b 6= 0. Die Lösungsmenge eines homogenen linearen Gleichungssystems Ax = 0 hat eine lineare Struktur: Neben 0 ∈ Lös(A, 0) gilt für x, y ∈ Lös(A, 0) und λ ∈ R, dass x ± y, λx ∈ Lös(A, 0). Betrachten wir die Struktur von Lös(A, b). Für jedes x0 ∈ Lös(A, b) gilt Lös(A, b) = x0 + Lös(A, 0) = {x0 + x | x ∈ Lös(A, 0) } , denn wegen A(x0 + x) = Ax0 + Ax für x ∈ Lös(A, 0) und Ax0 = b haben wir folgende Äquivalenz: A(x0 + x) = b ⇐⇒ Ax = 0. 2. Gauß-Algorithmus und Matrizen 9 Kennt man Lös(A, 0), den sogenannten Kern von A, und eine spezielle Lösung x0 ∈ Lös(A, b), so kennt man bereits alle Lösungen des imhomogenen linearen Gleichungssystems Ax = b. 2. Gauß-Algorithmus und Matrizen Wir wollen den Gauß-Algorithmus mit Hilfe von Matrizen-Operationen formulieren. Die Summe A + B zweier Matrizen A, B ∈ Mm,n (R) ist die Matrix bestehend aus der komponentenweisen Addition aij + bij der Einträge von A und B, die skalare Multiplikation λA mit λ ∈ R ist ebenfalls komponentenweise erkärt: λA = (λaij ) 1≤i≤m A + B := (aij + bij ) 1≤i≤m 1≤j≤n 1≤j≤n Die Multiplikation einer Matrix mit einem Vektor ist (Definition 1.2 auf Seite 4) ein Spezialfall der Matrizenmultiplikation: Def inition 1.8 (Multiplikation von Matrizen). Das Produkt AB zweier Matrizen A ∈ Mk,m (R) und B ∈ Mm,n (R) wird erklärt durch m m P P a1ν bν1 · · · a1ν bνn ! m ν=1 ν=1 X .. .. AB = aiν bνj = ∈ Mk,n (R). . . 1≤i≤k m m ν=1 P P 1≤j≤n akν bν1 · · · akν bνn ν=1 ν=1 Den Eintrag cij des Produkts C := AB erhält man durch Multiplikation der i-ten Zeile von A mit der j-ten Spalte von B cij = m X aiν bνj = ai1 b1j + ai2 b2j + . . . + aim bmj ν=1 j ↓ a11 . . . i→ ai1 .. . ak1 ··· ··· ··· a1m .. . b11 . aim .. .. b . m1 akm j ↓ ··· ··· c11 . .. b1n .. = i→ ci1 . .. bmn . b1j .. . ··· bmj ··· ck1 ··· c1j .. . ··· ··· cij ··· .. . ··· ckj ··· c1n .. . cin .. . ckn Im Gegensatz zur Multiplikation reeller Zahlen ist die Multiplikation von Matrizen ist nicht kommutativ, d.h. es gibt Matrizen A, B mit A · B 6= B · A, und das Produkt zweier von Null verschiedener Matrizen kann durchaus Null ergeben: 1 0 0 1 0 1 · = 0 0 0 0 0 0 0 1 1 0 0 0 · = . 0 0 0 0 0 0 10 1. Lineare Gleichungssysteme Die n × n-Einheitsmatrix 1 0 0 . . . In := .. . . . . 0 ··· 0 .. . ∈ Mn,n (R) 0 1 ··· .. . .. . 0 entspricht dem Einselement der uns bekannten Zahlenbereiche, d.h. für alle A ∈ Mm,n (R) gilt Im A = A und AIn = A. Geht n aus dem Kontext hervor, sprechen wir kurz von der Einheitsmatrix. Die Bezeichnung In kommt vom englischen Identity. Im Deutschen wird die Einheitsmatrix auch mit En bezeichnet. Mit dem sogenannten Kronecker-Symbol ( 1 δij := 0 falls i = j falls i = 6 j kann man die die Einheitsmatrix beschreiben durch In := (δij )1≤i,j≤n . Def inition 1.9 (Elementarmatrizen). Zu i, j mit i 6= j und λ ∈ R \ {0} bezeichnen wir die quadratischen Matrizen i ↓ a) Vi,j 1 .. i→ := j→ j ↓ . 1 0 0 .. . 0 1 ··· 0 1 .. 0 . 1 0 ··· 0 1 0 .. . 0 0 1 .. . 1 i ↓ b) Ti (λ) := i→ 1 .. . 1 λ 1 .. . 1 ∈ Mn,n (R). ∈ Mn,n (R). 2. Gauß-Algorithmus und Matrizen 11 j ↓ 1 c) Ti,j (λ) := i→ .. . .. . .. λ . 1 ∈ Mn,n (R). als Elementarmatrizen. Für A ∈ Mm,n (R) gilt: a) Die Multiplikation mit Vi,j von links entspricht der Vertauschung der i-ten Zeile mit der j-ten Zeile von A. b) Die Multiplikation mit Ti (λ) von links entspricht der Multiplikation der i-ten Zeile von A mit dem Skalar λ. c) Die Multiplikation mit Ti,j (λ) von links entspricht der Addition des λ-fachen der j-ten Zeile zur i-ten Zeile von A. Die Multiplikation einer Matrix mit einer Elementarmatrix von links bewirkt eine Transformation der Zeilen der Matrix, eine Multiplikation von rechts dagegen eine Transformation der Spalten der Matrix. Insbesondere vertauscht man durch Multiplikation von rechts mit der Matrix Vi,j die Spalten i und j. Def inition 1.10 (Dreiecksmatrix). Eine quadratische Matrix T ∈ Mn,n (R) heißt • untere Dreiecksmatrix, falls tij = 0 für i < j und • obere Dreiecksmatrix, falls tij = 0 für i > j. Die Menge der unteren Dreiecksmatrizen bezeichnen wir mit UDn (R) ⊆ Mn,n (R), die Menge der oberen Dreiecksmatrizen mit ODn (R) ⊆ Mn,n (R). Bei unteren Dreiecksmatrizen sind alle Einträge oberhalb der Hauptdiagonalen Null, also t11 0 · · · 0 .. .. .. .. . . . . .. .. . . 0 tn1 · · · · · · tnn , bei oberen Dreiecksmatrizen alle unterhalb der Hauptdiagonalen. Satz 1.11 (Produkt von Dreiecksmatrizen). Das Produkt zweier unterer Dreiecksmatrizen ist eine untere Dreiecksmatrix. Beweis. Seien A, B ∈ UDn (R) und C := AB ∈ Mn,n (R). Es ist cij = 0 für i < j nachzuweisen. Da A und B untere Dreiecksmatrizen sind gilt, für i < j: cij = n X aik bkj = k=1 unn damit C ∈ UDn (R). i X k=1 aik bkj + |{z} =0 j X aik bkj + |{z} k=i+1 =0 n X aik bkj = 0 |{z} k=j+1 =0 12 1. Lineare Gleichungssysteme Man überlege sich, dass eine analoge Aussage für obere Dreiecksmatrizen gilt. Weil die Zeilentransformationen Ti,j (λ) im Gauß-Verfahren untere Dreiecksmatrizen sind, folgt aus Satz 1.11: Korollar 1.12. Sei (A, b) eine erweiterte Matrix derart, dass das Gauß-Verfahren keine Zeilen- und keine Spaltenvertauschungen vornimmt. Dann liefert es eine untere Dreiecksmatrix T , so dass T A Treppenform hat. Bemerkung 1.13. Die Dreiecksmatrizen Ti,j (λ) im Gauß-Verfahren (ohne Zeilenund Spaltenvertauschungen) erfüllen t11 = . . . = tmm = 1. Diese Eigenschaft bleibt bei der Multiplikation von Matrizen aus UDm (R) erhalten. Ist A eine quadratische Matrix dergestalt, dass der Gauß-Algorithmus keine Zeilenund Spaltenvertauschungen vornimmt, gilt T A ∈ ODn (R) mit der Transformationsmatrix des Gauß-Verfahrens T ∈ UDn (R). Def inition 1.14 (Permutationsmatrix). Eine quadratische Matrix P = (pij ) ∈ Mn,n (R) heißt Permutationsmatrix, wenn a) pij ∈ {0, 1} n P b) pij = 1 j=1 und n P pji = 1 für i = 1, . . . , n. j=1 Eine Permutationsmatrix hat in jeder Zeile und in jeder Spalte genau eine Eins und sonst nur Nullen als Einträge. Auch für Permutationsmatrizen gilt, dass sie, von links multipliziert, die Zeilen vertauscht (permutiert), von rechts multipliziert dagegen die Spalten. Ist dabei pij = 1, dann ist die j-te Zeile (Spalte) von A gleich der i-ten Zeile (Spalte) von P A (von AP ). Korollar 1.15. Führt das Gauß-Verfahren auf der erweiterten Matrix (A, b) keine Zeilenvertauschung durch, dann liefert es eine untere Dreiecksmatrix T und eine Permutationsmatrix P , so dass T AP in Treppenform ist. In Übungsaufgabe 2.4 wird gezeigt: Satz 1.16. Sei A ∈ Mn,n (R). Dann gibt es Permutationsmatrizen P1 , P2 ∈ Mn,n (R) und Dreiecksmatrizen T ∈ UDn (R), B ∈ ODn (R) mit P1 AP2 = T B. Da P1 , P2 , T, B einfach zu invertieren4 sind, erhält man eine Formel für die inverse Matrix A−1 . Die Diagonalelemente von T sind 1. Korollar 1.17 (Matrix-Inversion). Mit Hilfe des Gauß-Algorithmus kann man zu einer quadratischen Matrix A ∈ Mn,n (R) in O(n3 ) arithmetischen Schritten die inverse Matrix A−1 mit mit A · A−1 = In = A−1 · A bestimmen. Die Aussage von Korollar 1.17 gilt nicht nur für die reellen Zahlen R, sondern ebenfalls für beliebige Körper K. −1 4Eine quadratische Matrix A ∈ M ∈ Mn,n (R) n,n (R) heißt invertierbar, wenn es eine Matrix A mit A · A−1 = In = A−1 · A gibt. Kapitel 2 Körper, Ringe und Gruppen Wir beschäftigen uns in diesem Kapitel näher mit verschiedenen algebraischen Strukturen und Abbildungen, welche die algebraische Struktur erhalten, sogenannten Homomorphismen. 1. Körper Die reellen Zahlen sind ein Beispiel für die algebraische Struktur eines sogeannten Körpers: Def inition 2.1 (Körper). Ein Körper ist eine nichtleere Menge K mit zwei Verknüpfungen + : K × K → K, · : K × K → K, (a, b) 7→ a + b (Addition) (a, b) 7→ a · b (Multiplikation), welche die folgenden Axiome erfüllen: • Gesetze der Addition: (1) Assoziativität: (x + y) + z = x + (y + z) für alle x, y, z ∈ K. (2) Kommutativität: x + y = y + x für alle x, y ∈ K(3) Existenz eines Nullelements 0 ∈ K: 0 + x = x = x + 0 für alle x ∈ K. (4) Existenz additiver inverser Elemente: Zu jedem x ∈ K gibt es ein −x ∈ K mit x + (−x) = 0 = (−x) + x. • Gesetze der Multiplikation: (5) Assoziativität: (x · y) · z = x · (y · z) für alle x, y, z ∈ K. (6) Kommutativität: x · y = y · x für alle x, y ∈ K. (7) Existenz eines Einselements 1 ∈ K \ {0}: 1 · x = x = x · 1 für alle x 6= 0. (8) Existenz multiplikativer inverser Elemente: Zu jedem x ∈ K \ {0} gibt es ein x−1 ∈ K mit x · x−1 = 1 = x−1 · x. 13 14 2. Körper, Ringe und Gruppen • Distributivgesetze:1 (9) Linksdistributivität: x · (y + z) = x · y + x · z für alle x, y, z ∈ K. (10) Rechtsdistributivität: (x + y) · z = x · z + y · z für alle x, y, z ∈ K. Wir schreiben abkürzend xy statt x · y und x − y statt x + (−y), und vereinbaren, dass die Multiplikation stärker bindet als die Addition, also xy + z = (xy) + z, um auf zusätzliche Klammerungen zu verzichten. Jeder Körper hat mindestens zwei Elemente, denn das Nullelement 0 und das Einselement 1 sind per Definition verschieden. Da zu einer algebraischen Struktur neben einer Menge auch ihre Verknüpfungen gehören, ist ein Körper genaugenommen ein 3-Tupel (K, +, ·). Wir werden uns aber meist abkürzend nur auf K beziehen. Lemma 2.2. In einem Körper K gelten die folgenden Rechenregeln: a) Nullelement 0 und Einselement 1 sind eindeutig bestimmt. b) Das additive Inverse −x und das multiplikative Inverse x−1 eines Elements x ∈ K bzw. x ∈ K \ {0} sind eindeutig bestimmt. c) Es gilt −(−x) = x und ((x)−1 )−1 = x für x ∈ K bzw. x ∈ K \ {0}. d) Für x, y, z ∈ K folgt aus x + z = y + z, dass x = y. e) Für x, y ∈ K und z ∈ K \ {0} folgt aus xz = yz, dass x = y. f) Ein Produkt xy ist Null, sobald einer der Faktoren x, y ∈ K Null ist. Insbesondere gilt 0 · x = x · 0 = 0. g) Es gilt Nullteilerfreiheit, d.h. das Produkt xy von x, y ∈ K \ {0} ist ungleich Null. h) Für x, y ∈ K \ {0} gilt (xy)−1 = y −1 x−1 . i) Für x, y ∈ K gilt x · (−y) = (−x) · y = −(xy). Insbesondere ist (−x) · (−y) = xy. Beweis. Sei K ein Körper und x, y, z ∈ K. a) Sei 00 ∈ K ein Nullelement. Da 0 und 00 beides Nullelemente sind, folgt aus Axiom 3: 00 = 0 + 00 = 0. Sei 10 ∈ K ein Einselement. Weil 1 und 10 beides Einselemente sind, folgt aus Axiom 7: 10 = 1 · 10 = 1. b) Sei (−x)0 ein additives Inverses zu x. Es folgt: (3) (1) (4) (−x)0 = (−x)0 + (x + (−x)) = ((−x)0 + x) +(−x) = −x. | {z } | {z } (4) (3) =0 =0 (x−1 )0 Sei ein multiplikatives Inverses zu x ∈ K \ {0}. Dann gilt analog zum vorherigen Schritt: (7) (8) (5) (8) (7) (x−1 )0 = (x−1 )0 · 1 = (x−1 )0 · (x · x−1 ) = ((x−1 )0 · x) · x−1 = 1 · x−1 = x−1 . 1Aufgrund der Kommutativität der Multiplikation genügt bereits eines der Distributivgesetze. 1. Körper 15 c) Aus (−x) + x = 0 bzw. (x−1 ) · x = 1, folgt dass x das eindeutig bestimmte Inverse zu −x bzw. x−1 ist. d) Wegen Axiom (1) und x + z = y + z gilt: x = x + (z − z) = (x + z) − z = (y + z) − z = y + (z − z) = y. | {z } | {z } =0 =0 e) Wegen Axiom (5) und xz = yz gilt: x = x · 1 = x(zz −1 ) = (xz)z −1 = (yz)z −1 = y(zz −1 ) = y · 1 = y. f) Wir zeigen x · 0 = 0. Der Rest der Aussage folgt dann aus Axiom (6). Gemäß Axiomen (3) und (9) gilt: x · 0 = x · (0 + 0) = x · 0 + x · 0, also x · 0 = x · 0 + x · 0. Aus d) folgt 0 = x · 0. g) Wir zeigen, dass aus xy 6= 0 folgt x = 0 oder y = 0. Angenommen, xy = 0 und x 6= 0. Dann hat x ein multiplikatives Inverses x−1 und: y = 1 · y = (x−1 x)y = x−1 (xy) = x · 0 = 0. h) Wir zeigen, dass y −1 x−1 Inverses zu xy ist: −1 −1 −1 (y −1 x−1 )(xy) = ((y −1 x−1 )x)y = (y −1 x | {z x})y = (y · 1)y = y y = 1. =1 i) Aus xy + x(−y) = x(y − y) = x · 0 = 0 folgt −(xy) = x(−y). Analog erhalten wir aus xy + (−x)y = (x − x)y = 0 · y = 0, dass −(xy) = (−x)y. Weil xy das additive Inverse zu −(xy) ist, gilt (−x)(−y) = −((−x)y) = −(−(xy)) = xy. Dies war zu zeigen. Wir kennen bereits einige Körper, beispielsweise die reellen Zahlen R, sowie die rationalen Zahlen Q mit der gewohnten Addition und Multiplikation und den Rechenregeln −1 ad + bc a c ac a c a b + = · = = . b d bd b d bd b a Die reellen und die rationalen Zahlen sind Beispiele für angeordnete Körper: Def inition 2.3 (Angeordneter Körper). Ein Körper K heißt angeordnet, wenn es eine Relation >“ gibt mit: ” (A1) Für a ∈ K gilt genau eine der drei Beziehungen a > 0, a = 0, −a > 0. (A2) Aus a > 0 und b > 0 folgt a + b > 0 für a, b ∈ K. (A3) Aus a > 0 und b > 0 folgt a · b > 0 für a, b ∈ K. 16 2. Körper, Ringe und Gruppen Die endlichen Körper Z2 und Z3 . Im Gegensatz zu unseren vorherigen Beispielen bilden die ganzen Zahlen Z keinen Körper, denn in Z existieren keine Inverse bezüglich der Multiplikation. Wir können aber einen endlichen Körper, also einen Körper mit nur endlich vielen Elementen, aus 0 und 1 konstruieren. Dazu setze Z2 := {0, 1} und definiere Addition und Multiplikation wie folgt: + 0 1 0 0 1 1 1 0 · 0 1 0 0 0 1 0 1 Man überzeuge sich, dass alle Körperaxiome erfüllt sind. Geht man alle alternativen Belegungen der Additions- und der Multiplikationstafel durch, so ergibt sich, dass keine anders definierte Addition und Multiplikation die Körperaxiome erfüllen, denn durch die Eigenschaften des Nullelements 0 und des Einselements 1 sind die Werte bis auf 1 + 1 und 0 · 0 festgelegt. • Die Summe 1+1 muß 0 sein, denn sonst gäbe es zu 1 kein negatives Element. • Das Produkt 0 · 0 muß 0 sein, denn sonst wäre f) aus Lemma 2.2 verletzt. Addition und Multiplikation sind im Körper mit zwei Elementen durch die Körpergesetze eindeutig bestimmt. Da jeder Körper mindestens das Null- und das Einselement enthalten muß, gibt es (bis auf Benennung) nur einen Körper mit zwei Elementen. Auf analoge Weise gelingt die Konstruktion des Körpers mit drei Elementen: Wir setzen Z3 := {0, 1, 2} und erklären Addition und Multiplikation wie folgt: + 0 1 2 0 0 1 2 1 1 2 0 2 2 0 1 · 0 1 2 0 0 0 0 1 0 1 2 2 0 2 1 Auch hier überzeuge sich der Leser, dass alle Körpergesetze erfüllt sind. Bemerkung 2.4. Endliche Körper heißen Galoisfelder 2 (im Englischen heißt ein Körper field“). Sie sind bis auf Benennung der Elemente (Isomorphie) eindeutig ” bestimmt. Man spricht daher von dem endlichen Körper Fq mit q Elementen. Für Primzahlen p kann man Fp aus Z ableiten. Wir beschäftigen uns allgemein mit endlichen Körpern in Kapitel 15. Der Körper der komplexen Zahlen. Als weiteres und wichtiges Beispiel eines Körpers lernen wir die komplexen Zahlen kennen, mit denen bereits Cardano3 im 16. Jahrhundert, wenn auch unverstanden, rechnete. Zu Konstruktion der komplexen Zahlen C erweitern wir die reellen Zahlen und betrachten Paare von reellen Zahlen: C := R2 = {(a, b) | a, b ∈ R } . 2Zu Ehren von Evariste Galois, 1811–1832, einem französischen Mathematiker, der, zu seiner Zeit unverstanden, wichtige Beiträge zur Gruppentheorie und zur Auflösungstheorie algebraischer Gleichungen lieferte. Er starb mit 21 Jahren bei einem Duell. 3Geronimo Cardano, 1501–1576. Cardano war ein italienischer Mathematiker, Arzt und Naturforscher. Er veröffentlichte u.a. das ihm von Tartaglia mitgeteilte Verfahren zur Lösung kubischer Gleichungen und ein Buch über das Würfelspiel. 1. Körper 17 Man definiert Addition und Multiplikation wie folgt: (a, b) + (a0 , b0 ) := (a + a0 , b + b0 ) (a, b) · (a0 , b0 ) := (aa0 − bb0 , ab0 + a0 b). (3) Durch Nachrechnen ergibt sich, dass C mit obiger Addition und Multiplikation einen Körper bildet. Dabei ist (0, 0) das Nullelement und (1, 0) das Einselement. Zu (a, b) b a ist −(a, b) := (−a, −b) Inverses bezüglich der Addition und ( a2 +b 2 , − a2 +b2 ) Inverses bezüglich der Multiplikation. Einbettung der reellen Zahlen. Wir interpretieren die reellen Zahlen R ∼ = R × {0} ⊂ C als Teilmenge der komplexen Zahlen. Offenbar ist {(a, 0) | a ∈ R } abgeschlossen gegenüber Addition und Multiplikation der komplexen Zahlen. Unsere Interpretation ist gerechtfertigt, denn man erhält in den Gleichungen (3) für b = b0 = 0 die gewohnte Addition und Multiplikation der reellen Zahlen. Darstellung mit der imaginären Einheit. Um zu einem besseren Verständnis im Umgang mit den komplexen Zahlen zu kommen, betrachten wir eine alternative Darstellung. Wir zeichnen ein Element der komplexen Zahlen aus und nennen i := (0, 1) die imaginäre Einheit.4 Offenbar verfügt diese über die Eigenschaft i2 = (0, 1)(0, 1) = (−1, 0) = −1, also i2 = −1. Mit dem Einselement (1, 0) und der imaginären Einheit (0, 1) verfügen wir über eine Basis von C, mit deren Hilfe sich jede komplexe Zahl als Linearkombination von 1 und i darstellen läßt: (a, b) = a(1, 0) + b(0, 1) = a + bi = a + ib. In dieser Darstellung ergeben sich, unter Berücksichtigung von i2 = −1, die Regeln für die Addition und die Multiplikation komplexer Zahlen auf natürliche Weise aus den Rechenregeln der reellen Zahlen: a + ib + a0 + ib0 = a + a0 + i(b + b0 ) (a + ib)(a0 + ib0 ) = aa0 + iab0 + iba0 + i2 bb0 = aa0 − bb0 + i(ab0 + a0 b). Wir stellen die Inversen bezüglich Addition und Multiplikation auf diese Weise dar: −(a + ib) = −a − ib (a + ib)−1 = a − ib . a2 + b2 a b Diese entsprechen den anfangs angegebenen Inversen (−a, −b) und ( a2 +b 2 , − a2 +b2 ), denn: a + ib + (−a − ib) = 0 + i · 0 = 0 a − ib a2 − i2 b2 a2 + b2 (a + ib) 2 = = = 1. a + b2 a2 + b2 a2 + b2 4Auf Leonhard Euler, 1707–1783, einen bekannten Mathematiker, geht die Einführung dieses Symbols zurück. In den zahlreichen Veröffentlichungen Eulers finden sich neben einer Fülle von Abhandlungen auch viele ausgezeichnete Gesamtdarstellungen mathematischer Gebiete. Er verzeichnete bedeutende Erfolge in den meisten Gebieten der Mathematik und ihrer Anwendungen im weiteren Sinne. Die Symbole f (x), π und e gehen auf ihn zurück. 18 2. Körper, Ringe und Gruppen Abbildung 1. Gauß’sche Zahlenebene Imaginärteil 6 b 7 ` i ϕ 0 1 a - Realteil Die Gauß’sche Zahlenebene 5 liefert eine geometrische Interpretation der komplexen Zahlen. Wir fassen die komplexen Zahlen als Punkte der reellen Ebene auf und nennen a den Realteil und b den Imaginärteil einer komplexen Zahl a + ib. Anhand dieser Auffassung wird deutlich, dass man komplexe Zahlen auf eine dritte Art und Weise darstellen kann, nämlich mit Polarkoordinaten: Wir interpretieren einen Punkt als Ortsvektor und beschreiben ihn durch seine euklidische6 Länge und den Winkel zwischen ihm und der positiven reellen Achse (siehe Abbildung 1). Jede komplexe Zahl (außer der Null) wird eindeutig durch ihre Länge ` und ihren Winkel ϕ beschrieben. Wir erhalten eine bijektive Abbildung R2 → R≥0 × [0, 2π), (a, b) 7→ (`, ϕ), wobei R≥0 := {x ∈ R | x ≥ 0 } die Menge der nicht-negativen, reellen Zahlen ist. Wie sieht die Darstellung von Die Länge der √ a+ib ∈ C in in Polarkoordinaten aus? a 2 2 komplexen Zahl a + ib ist ` = a + b , für den Winkel gilt cos ϕ = ` bzw. sin ϕ = b` : (a, b) = a + ib = `(cos ϕ + i sin ϕ). Die Multiplikation zweier komplexer Zahlen in Polarkoordinaten gestaltet sich einfach: `(cos ϕ + i sin ϕ) · `0 (cos ϕ0 + i sin ϕ0 ) = ``0 (cos(ϕ + ϕ0 ) + i sin(ϕ + ϕ0 )). 5Carl Friedrich Gauß, 1777–1855, siehe Fußnote auf Seite 4 6Euklid, ca. 365–300 v.Chr., war einer der großen Mathematiker und Philosophen der Antike. Seine Elemente“ sind eines der bekanntesten mathematischen Werke überhaupt und waren 2000 ” Jahre lang Grundlage der Mathematikausbildung. Über ihn selbst ist wenig bekannt, doch wird folgende Anekdote von ihm überliefert: Als ein Schüler ihn fragte, welchen Nutzen er davon habe, die geometrischen Lehrsätze zu lernen, rief Euklid einen seiner Sklaven und beauftragte ihn, dem Studenten eine kleine Geldmünze zu schenken, da dieser armselige Mensch einen Gewinn aus seinen ” Studien ziehen müsse“. 2. Ringe und Schiefkörper 19 Zur Multiplikation zweier komplexe Zahlen (in Polarkoordinaten), multipliziere die Längen und addiere die Winkel, denn gemäß Additionstheoremen für Sinus und Cosinus gilt: cos(ϕ + ϕ0 ) = cos ϕ cos ϕ0 − sin ϕ sin ϕ0 sin(ϕ + ϕ0 ) = sin ϕ cos ϕ0 + sin ϕ0 cos ϕ. Unterkörper. Interpretiert man die Standard-Zahlenbereiche als Erweiterungen voneinander, also N ⊂ Z ⊂ Q ⊂ R ⊂ C, ist zu erkennen, dass diese zunehmend abgeschlossen gegenüber verschiedenen Operationen sind: • N Abschluß gegenüber Addition und Multiplikation • Z Abschluß von N gegenüber Subtraktion. • Q Abschluß von Z gegenüber Division. • R Abschluß von Q gegenüber Häufungspunkten und Konvergenz • C Abschluß von R gegenüber algebraischen Gleichungen.7 Die rationalen Zahlen Q sind ein Unterkörper der reellen Zahlen R, die man ihrerseits als Unterkörper der komplexen Zahlen C auffaßt:8 Def inition 2.5 (Unterkörper). Eine nichtleere Teilmenge K0 ⊆ K eines Körpers K heißt Unterkörper, wenn K0 mit den Verknüpfungen von K selbst ein Körper ist. Assoziativität, Kommutativtät und die Distributivgesetze übertragen sich vom Körper K auf die Teilmenge K0 . Satz 2.6. Sei K ein Körper. Ein Teilmenge K0 ⊆ K mit den gleichne Verküpfungen ist genau dann ein Unterkörper von K, wenn a) 0, 1 ∈ K0 , b) für x, y ∈ K0 ist x − y ∈ K0 und c) für x, y ∈ K0 \ {0} ist xy −1 ∈ K0 . Wir folgern später diese Charakterisierung mittels Korollar 2.14 aus Satz 2.17. 2. Ringe und Schiefkörper Ein Ring unterscheidet sich im wesentlichen dadurch von einem Körper, dass er nicht notwendigerweise über multiplikative Inverse verfügt. Je nachdem, welche Axiome außerdem nicht gelten, unterscheiden wir verschiedene Arten von Ringen: Def inition 2.7 (Ring). Ein Ring R erfüllt alle Körperaxiome bis auf die Axiome 6 (Kommutativität der Multiplikation), 7 (Existenz der Eins) und 8 (Existenz inverser Elemente) gelten. 7Jedes Gleichung Pn a xi = 0 mit n ≥ 1 und a , . . . , a ∈ C hat eine Lösung x ∈ C. Dies 0 n i=0 i ist der sogenannte Fundamentalsatz der Algebra von C.F. Gauß, auf den wir in Kapitel 4 über Polynome genauer eingehen (Fakt 4.23). 8Hingegen ist zum Beispiel Z = {0, 1} kein Unterkörper der reellen Zahlen R (obwohl 0, 1 ∈ R), 2 denn die Verknüpfungen sind unterschiedlich: In Z2 gilt 1 +2 1 = 0, während über den reellen Zahlen 1 + 1 = 2 ist. 20 2. Körper, Ringe und Gruppen Existiert das Einselement, sprechen wir von einem Ring mit Eins, ist die Multiplikation kommutativ, von einem kommutativen Ring. Ein nullteilerfreier, kommutativer Ring, der außer der 0 ein weiteres Element enthält, heißt Integritätsring (auch Integritätsbereich). Zu einem Ring gehören neben einer Menge auch seine Verknüpfungen, ein Ring ist eigentlich ein 3-Tupel (R, +, ·). Wie bei Körpern beziehen wir uns aber meist abkürzend nur auf R. Bei Ringen fallen die beiden Distributivgesetze (Axiome 9 und 10) im allgemeinen nicht zusammen. Ein Ring heißt nullteilerfrei (siehe Lemma 2.2), wenn er keine Nullteiler besitzt. Da in Ringen keine multiplikativen Inversen existieren müssen, folgt im allgemeinen aus xz = yz nicht, dass y = z ist (d.h. man darf nicht kürzen“). Unterringe definiert man analog zu Unterkörpern (Definition 2.5). ” Beispiel 2.8. Wir haben bereits einige Ringe kennengelernt: • Die Menge Z der ganzen Zahlen bildet einen kommutativen Ring mit Eins. Dieser Ring ist sogar ein Integritätsbereich. • Die Menge Mn,n (R) der quadratischen Matrizen bildet einen Ring mit Eins. Dabei ist die Nullmatrix das Nullelement und die Einheitsmatrix das Einselement. Dieser Ring ist nicht nullteilerfrei. Wenn wir in der Definition eines Körpers auf die Kommutativität der Multiplikation verzichten, erhält man einen sogenannten Schiefkörper (Divisionsring): Def inition 2.9 (Schiefkörper). Ein Schiefkörper S erfüllt alle Körperaxiome bis auf Axiom 6 (Kommutativität der Multiplikation). Im Gegensatz zu Körpern ist es bei Schiefkörpern zwingend erforderlich (da die Multiplikation nicht kommutativ sein muß), explizit 1x = x1 = 1 zu fordern. Dann stimmt Linksinverses und Rechtsinverses zu einem Element überein: −1 −1 −1 −1 −1 x−1 L = xL (xxR ) = (xL x) xR = xR | {z } | {z } =1 =1 Im Gegensatz ein einem Körper sind für Schiefkörper sind beide Distributivitätsgesetze notwendig. Quaternionen-Schiefkörper. Als Beispiel eines Schiefkörpers betrachten wir den Schiefkörper der Quaternionen H, den Hamilton9 entdeckte. Die Idee ist, die komplexen Zahlen zu erweitern, indem man statt Paaren 4-Tupel reeller Zahlen betrachtet. Wir setzen H := R4 = {(a, b, c, d) | a, b, c, d ∈ R} und führen dann in Analogie zur imaginären Einheit in C drei imaginäre Einheiten i, j, k ein, für die gilt i2 = j 2 = k 2 = −1, ij = k, jk = i, ki = j. 9William Rowan Hamilton, 1805–1865. Ein irischer Mathematiker und Physiker mit Arbeiten auf den Gebieten der Mechanik, der Optik und der Algebra. 3. Gruppen 21 Mit diesen imaginären Einheiten stellt man ein Element (a, b, c, d) ∈ H als a + ib + jc + kd dar. Addition und Multiplikation zweier Quaternionen h = (a, b, c, d), h0 = (a0 , b0 , c0 , d0 ) ∈ H ergeben sich unter Berücksichtigung der Eigenschaften der imaginären Einheiten aus der gewohnten Addition und Multiplikation der reellen Zahlen: h + h0 = a + a0 + i(b + b0 ) + j(c + c0 ) + k(d + d0 ) h · h0 = aa0 − bb0 − cc0 − dd0 + i(ab0 + ba0 + cd0 − dc0 ) + j(ac0 − bd0 + ca0 + db0 ) + k(ad0 + bc0 − cb0 + da0 ). Mit c = d = 0 sind dies die komplexen Zahlen (einschließlich der gewohnten Addition und Multiplikation in C). Man kann die komplexen Zahlen C∼ = C × {0} × {0} ⊂ H ⊂ als Teilmenge der Quaternionen betrachten, es gilt R ⊂ ∼ C ∼ H. 3. Gruppen Im Gegensatz zu Körpern und Ringen verfügen Gruppen nur über eine Verknüpfung. Def inition 2.10 (Gruppe). Eine Gruppe ist eine Menge G mit einer Verknüpfung · : G × G → G und den Gesetzen: a) Assoziativität: (xy)z = x(yx) für alle x, y, z ∈ G. b) Existenz des neutralen Elementes 1: 1 · x = x · 1 = x für alle x ∈ G. c) Existenz inversen Elemente x−1 ∈ G: x−1 x = 1 = xx−1 für alle x ∈ G. Eine Gruppe G heißt kommutative Gruppe, falls die Verknüpfung kommutativ ist, d.h. für x, y ∈ G gilt x · y = y · x. Das neutrale Element 1 wird oft auch mit e (für Einheit) bezeichnet. Eine kommutative Gruppe nennt man abelsch 10. Wir haben in der Gruppen-Definition 2.10 die multiplikative Schreibweise verwendet. Bei einer additiven Schreibweise wird die Verknüpfung mit +“, das neutrale Element mit 0 und die inversen Elemente mit −x ” bezeichnet. Man verwendet allgemein für Gruppen die multiplikative Schreibweise (G, ·) und für kommutative Gruppen die additive Schreibweise (G, +). Def inition 2.11 (Monoid, Halbgruppe). Ein Monoid M erfüllt alle Gruppenaximone bis auf die Existenz inverser Elemente. Eine Halbgruppe H ist eine nichtleere Menge H mit einer assoziativen Verknüpfung. Ein Monoid ist eine Halbgruppe mit einem neutralen Element, eine Gruppe ist eine Halbgruppe mit inversen Elementen. Beispiel 2.12. Beispiele für Halbgruppen, Monoide und Gruppen sind: 10Niels Hendrik Abel, 1802–1829, ein bedeutender norwegischer Mathematiker. Er lieferte wichtige Beiträge zur Funktionentheorie (insbesondere zu elliptischen Funktionen und Integralen) und zur Auflösungstheorie algebraischer Gleichungen. Zu seinen Ergebnissen zählen beispielsweise das Abelsche Theorem, eine Verallgemeinerung des Additionstheorems elliptischer Integrale, sowie die Unauflösbarkeit der allgemeinen Gleichungen fünften oder höheren Grades in Radikalen. 22 2. Körper, Ringe und Gruppen • Sei X eine nicht leere Menge. Die Menge aller Abbildungen Abb(X, X) := {f | f : X → X } ist mit der Komposition (Hintereinanderausführung) (f ◦ g)(x) := f (g(x)), als Verknüpfung ein Monoid: Für alle f, g, h ∈ Abb(X, X) und x ∈ X gilt (h ◦ (f ◦ g))(x) = h(f (g(x))) = (h ◦ f )(g(x)) = ((h ◦ f ) ◦ g)(x) Die Einheit ist die Identitätsfunktion id(x) = x. • Die Menge Mn,m (K) der n × n-Matrizen über einem Körper K ist mit der Multiplikation und der Einheitsmatrix als neutralem Element eine Halbgruppe. Die Assoziativität der Matrix-Multiplikation überträgt sich aus K (siehe Übungsaufgabe 2.1). • Die Menge N0 = {0, 1, 2, . . .} der natürlichen Zahlen ist mit der Addition und 0 als neutralem Element ein Monoid. • Die Menge GLn (K) := A ∈ Mn,n (K) A−1 existiert der invertierbaren n × n-Matrizen über einem Körper K ist mit der Multiplikation eine Gruppe (die allgemeine, lineare Gruppe). Zu C := AB mit A, B ∈ GLn (K) ist das Inverse C −1 = B −1 A−1 . • Sei R ein Ring mit Eins. Dann ist die Menge der invertierbaren Elemente R∗ := r ∈ R r−1 existiert mit der Multiplikation eine Gruppe, die sogenannte Einheitengruppe. Es ist R∗ ⊆ R \ {0} und im Fall eines Körpers K gilt die Gleichheit K∗ = K \ {0}. Analog zu Lemma 2.2 weist man folgende Rechenregeln für Gruppen nach: Lemma 2.13. In einer Gruppe G gelten die folgenden Rechenregeln: a) Das Einselement 1 ist eindeutig bestimmt. b) Das Inverse x−1 eines Elements x ∈ G ist eindeutig bestimmt. c) Für x, y ∈ G gilt (xy)−1 = y −1 x−1 . d) Für x, y, z ∈ G folgt aus xz = yz, dass x = y. e) Für x, y, z ∈ G folgt aus zx = zy, dass x = y. Mit Gruppen können wir Körper und Ringe kürzer als bisher beschreiben. Korollar 2.14 (Körper). Eine nichtleere Menge K zusammen mit zwei inneren Verknüpfungen (Addition und Multiplikation) ist genau dann ein Körper, falls: a) K ist zusammen mit der Addition eine kommutative Gruppe. b) K∗ ist zusammen mit der Multiplikation eine kommutative Gruppe. c) Es gilt Distributivität. 4. Homomorphismen 23 Korollar 2.15 (Ring). Eine nichtleere Menge R mit zwei inneren, binären Verknüpfungen Addition und Multiplikation. ist genau dann ein Ring, falls: a) R ist zusammen mit der Addition eine kommutative Gruppe. b) R \ {0} ist zusammen mit der Multiplikation eine Halbgruppe. c) Es gilt Links- und Rechtsdistributivität. R ist genau dann ein (kommutativer) Ring mit Eins, wenn R \ {0} mit der Multiplikation einen (kommutativen) Monoid darstellt. Untergruppe definiert man analog zu Unterkörpern (Definition 2.5). Def inition 2.16 (Untergruppe). Eine nichtleere Teilmenge U einer Gruppe G heißt Untergruppe, wenn U mit der Verknüpfung aus G selbst eine Gruppe ist. Eine einfache Charakterisierung einer Untergruppe liefert folgender Satz: Satz 2.17. Sei G eine Gruppe. Eine nichtleere Teilmenge U ⊆ G ist genau dann eine Untergruppe von G, falls aus x, y ∈ U folgt xy −1 ∈ U . Beweis. Offenbar erfüllt jede Untergruppe U ⊆ G das Kriterium. Angenommen, eine nichtleere Teilmenge U ⊆ G erfüllt die Bedingung. Die Assoziativität überträgt sich von G auf U , nachzuweisen bleibt, dass die Teilmenge U abgeschlossen gegenüber der Verknüpfung ist und Inverse in U existieren. Wegen U 6= ∅ existiert ein u ∈ U , aus dem zweiten Kriterium folgt mit x := u und y := u: 1 = uu−1 ∈ U. Die Teilmenge U enthält das Einselement 1. Zu u ∈ U ist auch u−1 ∈ U , denn aus der zweiten Eigenschaften und 1 ∈ U folgt u−1 = 1 · u−1 ∈ U , und U ist eine Untergruppe von G. Wir beweisen Satz 2.6 mit Hilfe der Charakterisierung aus Korollar 2.14. Nach Satz 2.17 gilt für K0 : • (K0 , +) ist eine Untergruppe von (K, +) und • ((K0 )∗ , ·) eine Untergruppe von (K∗ , ·). Da sich die Distributivität überträgt, ist K0 ein Körper. Statt Eigenschaft a) genügt die Bedingung (K0 )∗ 6= ∅. 4. Homomorphismen Ein Homomorphismus ist eine Abbildung, bei der kein Unterschied besteht, ob man zuerst die auf der Struktur definierte Verknüpfung und danach den Homomorphismus ausführt oder umgekehrt. Homomorphismen sind rechentreue“ oder strukturerhal” ” tende“ Abbildungen, d.h. die Rechenregeln einer Struktur bleiben bei der Abbildung erhalten. Def inition 2.18 (Gruppenhomomorphismus). Seien (G, · ) und (G0 , ◦) Gruppen. Eine Abbildung f : G → G0 heißt Gruppenhomomorphismus, falls für x, y ∈ G gilt f (x · y) = f (x) ◦ f (y). (4) 24 2. Körper, Ringe und Gruppen Man beachte, dass es sich bei x · y um die Verknüpfung von G handelt, bei f (x) ◦ f (y) dagegen um die Verknüpfung von G0 . Für Homomorphismen von Halbgruppen und Monoiden fordert man ebenfalls Eigenschaft (4). √ Beispiel 2.19. Für die Gruppe (R≥0 , ·) ist die Funktion f (x) := x ein Homomorphismus: √ √ √ f (x · y) = x · y = x · y = f (x) · f (y). Die Funktion exp : (R, +) → (R, ·), x 7→ ex ist ein Gruppenhomomorphismus: exp(x + y) = ex+y = ex · ey = exp(x) · exp(y). Sei f : G → G0 ein Gruppenhomomorphismus und x ∈ G. Es gilt f (1G ) = 1G0 , denn f (1) = f (1 · 1) = f (1) · f (1), und aus 1 = f (1) = f (x · x−1 ) = f (x) · f (x−1 ) erhalten wir f (x−1 ) = f (x)−1 . Das Bild von f ist bild f := {f (x) | x ∈ G } ⊆ G0 und ker f := {x ∈ G | f (x) = 1 } = f −1 (1) ⊆ G heißt der Kern von f .11 Man kann leicht nachrechnen, dass ker f eine Untergruppe von G und bild f Untergruppe von G0 ist. Def inition 2.20 (Ring- und Körperhomomorphismus). Seien (R, +, ·) und (R0 , ⊕, ◦) Ringe. Eine Abbildung f : R → R0 heißt Ringhomomorphismus, falls für x, y ∈ R gilt a) Additivität: f (x + y) = f (x) ⊕ f (y) und b) Homogenität: f (x · y) = f (x) ◦ f (y). Falls R, R0 Körper sind, spricht man von einem Körper-Homomorphismus. Bei einem Homomorphismus f : A → A0 übertragen alle Operationen die algebraischen Struktur A. Man spricht davon, dass die Operationen der Struktur sich übertragen oder mit f verträglich sind. Bemerkung 2.21 (Homomorphieprinzip). Seien A und A0 algebraische Strukturen und f : A → A0 ein surjektiver Homomorphismus (Epimorphismus). Dann gilt für jede der beteiligten Verknüpfungen, dass sich Assoziativität, Kommutativität, die Existenz des neutralen Elements sowie die Existenz der inversen Elemente von A auf A0 übertragen. Man nennt dies das Homomorphieprinzip. Sei f : R → R0 ein Ringhomomorphismus. Bild und Kern werden analog erklärt. Man nennt bild(f ) := {f (x) | x ∈ R } das Bild von f und ker f := {x ∈ R | f (x) = 0 } = f −1 (0) den Kern von f . Es gilt f (0) = 0 und f (−x) = −f (x), denn f : (R, +) → (R0 , +) ist ein Gruppenhomorphismus. Def inition 2.22 (Spezielle Homomorphismen). Ein Homomorphismus f heißt 11Beachte, dass f −1 (y) nicht die Umkehrabbildung bezeichnet (diese existiert im allgemeinen nicht), sondern die Menge aller x ∈ G mit f (x) = y. 4. Homomorphismen 25 • Monomorphismus, falls f injektiv ist. • Epimorphismus, falls f surjektiv ist. • Isomorphismus, falls f bijektiv ist. • Endomorphismus, falls f eine Abbildung einer Menge in sich ist. • Automorphismus, falls f ein bijektiver Endomorphismus ist. Die Umkehrabbildung eines Isomorphismus ist ebenfalls ein Isomorphismus. Zwei Strukturen A, A0 heißen isomorph, A ∼ = A0 , falls ein Isomorphismus f : A → A0 existiert. Beispiel 2.23. Für G := 2k k ∈ Z gilt (Z, +) ∼ = (G, ·), wobei der Isomorphismus k durch f : Z → G mit k 7→ 2 gegeben ist. Wir betrachten als weiteres Beispiel für spezielle Homomorphismen einen Körperautomorphismus der komplexen Zahlen C. Beispiel 2.24. Die Abbildung f : C → C mit (a + ib) 7→ (a − ib) ordnet jeder komplexen Zahl z = a + ib die dazugehörige konjugiert komplexe Zahl z := a − ib zu. Dies entspricht in der Gauß’schen Zahlenebene einer Spiegelung an der reellen Achse. Da f eine Abbildung von C nach C ist, bleibt zu zeigen, dass f bijektiv ist und die Homomorphie-Eigenschaften besitzt. Die Bijektivität folgt aus f (f (a + ib)) = f (a − ib) = a + ib, d.h. es ist f −1 = f . Wir rechnen die Homomorphie-Eigenschaften nach: f (a + ib) + f (a0 + ib0 ) = a − ib + a0 − ib0 = (a + a0 ) − i(b + b0 ) = f (a + a0 + i(b + b0 )) = f (a + ib + a0 + ib0 ). Für die Multiplikation gilt: f (a + ib)f (a0 + ib0 ) = (a − ib)(a0 − ib0 ) = (aa0 − bb0 ) − i(ab0 + a0 b) = f (aa0 − bb0 + i(ab0 + a0 b)) = f ((a + ib)(a0 + ib0 )). Dies ergibt folgende Rechenregeln für die Konjugation komplexer Zahlen z1 , z2 ∈ C: z1 + z 2 = z1 + z2 z1 · z 2 = z1 · z 2 z 1 = z1 . Betrachten wir die Konjugation in der Darstellung mit Polarkoordinaten. Offenbar haben z und z die gleiche Länge. Für die Winkel gilt ϕ = 2π − ϕ = −ϕ mod 2π. Das Produkt zweier konjugiert komplexer Zahlen z1 · z2 hat den Winkel −ϕ1 + (−ϕ2 ) mod 2π, das konjugiert komplexe Produkt zweier komplexer Zahlen z1 · z2 hat den Winkel 26 2. Körper, Ringe und Gruppen −(ϕ1 + ϕ2 ) mod 2π. Dabei folgt die Gleichheit der Winkel und Längen auch aus den Homomorphie-Eigenschaften der komplexen Konjugation: z1 · z2 = z1 · z2 . 5. Vom Ring Z abgeleitete Körper Wir haben bereits in Abschnitt 1 dieses Kapitels die endlichen Körper Z2 und Z3 kennengelernt. Nun konstruieren wir aus den ganzen Zahlen Z endliche Strukturen Zp , die sich für prime12 p als Körper erweisen. Sei n ∈ N \ {0}. Wir erklären Addition und Multiplikation auf dem ganzzahligen Intervall [0, n − 1] = {0, 1, . . . , n − 1} ⊆ N gemäß a +n b := (a + b) − qn a ·n b := (ab) − q 0 n mit q, q 0 ∈ Z, so dass (a + b) − qn ∈ [0, n − 1] und (ab) − q 0 n ∈ [0, n − 1]. Das eindeutig bestimmte q bzw. q 0 ergibt sich aus der Division mit Rest [W96]: Satz 2.25 (Division mit Rest). Zu a ∈ Z, b ∈ N \ {0} gibt es eindeutig bestimmte Zahlen q, r ∈ Z mit a = qb + r und 0 ≤ r < b. Da r eindeutig bestimmt ist, nennen wir r den Rest bei der Division von a durch b und bezeichnen ihn mit a mod b (man spricht a modulo b“). Also: ” a +n b := (a + b) mod n a ·n b := (ab) mod n Def inition 2.26 (Zn ). Sei Zn := ([0, n−1], +n , ·n ) die algebaische Struktur bestehend aus der Menge [0, n − 1] und den beiden Verknüpfungen +n“ und ·n“. ” ” Für Zn schreibt man auch Z/nZ oder Z/(n) und spricht von einem Faktorring. Wir wollen zeigen, dass Zn ein kommutativer Ring mit Einselement ist. Nach dem Homomorphie-Prinzip (Bemerkung 2.21 auf Seite 24) genügt der Nachweis, dass die Abbildung rn : Z → Zn mit rn (a) := a mod n, d.h. a wird abgebildet auf den Teilerrest bei Division durch n, ein Homomorphismus ist. Es gilt r−1 (a) = a+nZ = {a + nz | z ∈ Z }. Wir identifizieren das Element a ∈ Zn mit der Menge a + nZ: Zn = [0, n − 1] ↔ {r + nZ | r = 0, 1, . . . , n − 1 } . Zu einem festen r ∈ [0, n − 1] heißt die Menge r + nZ die Restklasse modulo n und r nennt man einen Repräsentanten dieser Restklasse. Die Restklasse ist unabhängig von der Wahl des Repräsentanten: r + nZ = r0 + nZ ⇐⇒ r − r0 ∈ nZ. (5) 12Eine Zahl p ∈ N\{1} heißt prim, wenn p nicht als Produkt ab mit a, b ∈ [1, p−1] darstellbar ist. Dabei wird die Zahl 1 als Spezialfall per Definition ausgeschlossen. Teilt eine Primzahl ein Produkt xy, so teilt p einen der beiden Faktoren x oder y. 5. Vom Ring Z abgeleitete Körper 27 Die nachzuweisenden Homomorphie-Eigenschaften rn (a + b) = rn (a) +n rn (b) rn (a · b) = rn (a) ·n rn (b) mit a, b ∈ Z sind äquivalent zu:13 (a + b) + nZ = (a + nZ) + (b + nZ) (ab) + nZ = (a + nZ) · (b + nZ) (6) Für a, b ∈ [0, n − 1] gilt offenbar (6). Sei a0 := a + sn und b0 := b + tn mit s, t ∈ Z und a, b ∈ [0, n − 1]. Es genügt der Nachweis von (a0 + b0 ) − (a + b) ∈ nZ (a0 b0 ) − (ab) ∈ nZ, (7) d.h. rn (a + b) = rn (a0 + b0 ) und rn (ab) = rn (a0 b0 ), d.h. beide Repräsentanten stehen jeweils für die gleiche Restklasse. Gleichungen (7) folgen aus: (a0 + b0 ) − (a + b) = (a + b + (s + t)n) − (a + b) = (s + t)n ∈ nZ (a0 b0 ) − (ab) = (ab + atn + bsn + tsn2 ) − (ab) = (at + bs + tsn)n ∈ nZ Wir haben gezeigt: Satz 2.27. Für n ∈ N \ {0} ist Zn ist ein kommutativer Ring mit Eins. Das Nullelement ist die Restklasse 0+nZ, das Einelement 1+nZ. Insbesondere ist (Zn , +) nach Satz 2.27 eine kommutative Gruppe. Im allgemeinen handelt es sich bei Zn jedoch um keinen Körper, denn beispielsweise existiert in Z4 kein multiplikatives Inverses zu 2. Satz 2.28. Zn ist genau dann ein Körper, wenn n eine Primzahl ist. Beweis. Wir wissen bereits aus Satz 2.27, dass Zn ein kommutativer Ring mit Eins ist und sich von einem Körper nur durch Axiom 8 (Existenz inverser Elemente) unterscheiden kann. Ist n keine Primzahl, so gibt es a, b ∈ [1, n − 1] mit n = ab. Wegen (ab) mod n = 0 sind a mod n und b mod n Nullteiler in Zn , so dass Zn kein Körper ist. Sei p eine Primzahl. Wir zeigen, dass es zu jedem a ∈ [1, p − 1] ein Inverses gibt und Zp daher ein Körper ist. Betrachte die Produkte a ·p 0, a ·p 1, . . . , a ·p (p − 1). Diese sind paarweise verschieden. Denn angenommen, es gäbe i, j mit 0 ≤ i 6= j < p und a ·p i = a ·p j. Da a 7→ (a mod p) ein Homomorphismus ist, folgt a(i − j) ∈ pZ und p teilt a(i − j). Da p eine Primzahl ist, teilt p mindestens einen der Faktoren. Wegen 0 6= a < p, muß p die Differenz i − j teilen — Widerspruch, denn 0 < |i − j| < p. Da die p obigen Produkte paarweise verschieden sind und |Zp | = p ist, läßt sich jedes Element aus Zp darstellen als Produkt von a und einem anderen Element b ∈ Zp . Wegen 1 = a ·p b ist b Inverses zu a. 13Gleichung (6) bedeutet, dass + “ und · “ über Repräsentanten und die Addition bzw. Muln n ” ” tiplikation auf Z erklärt werden. Zu zeigen bleibt, dass die Verknüpfungen wohldefiniert sind, d.h. unabhängig von der Wahl der Repräsentanten. 28 2. Körper, Ringe und Gruppen Der Beweis ist nicht konstruktiv, liefert also keinen Anhaltspunkt für die Berechnung des Inversen von in Zp . Man kann die Inversen effizient mit dem (erweiterten) Euklidische Algorithmus, der in den Vorlesungen über Algebra“ und diskrete Mathematik“ ” ” vorgestellt wird, bestimmen. Beispiel 2.29. Betrachten wir ein weiteres Beispiel eines endlichen Körpers. Den Körper Z7 mit sieben Elementen leiten wir aus Z ab: + 0 1 2 3 4 5 6 0 0 1 2 3 4 5 6 1 1 2 3 4 5 6 0 2 2 3 4 5 6 0 1 3 3 4 5 6 0 1 2 4 4 5 6 0 1 2 3 5 5 6 0 1 2 3 4 6 6 0 1 2 3 4 5 · 0 1 2 3 4 5 6 0 0 0 0 0 0 0 0 1 0 1 2 3 4 5 6 2 0 2 4 6 1 3 5 3 0 3 6 2 5 1 4 4 0 4 1 5 2 6 3 5 0 5 3 1 6 4 2 6 0 6 5 4 3 2 1 Wir nennen zwei ganze Zahlen a, b ∈ Z kongruent modulo n, falls die Reste bei Division von a und b durch n gleich sind, also a − b ∈ nZ ist: a≡b (mod n). Die Kongruenz modulo n ist ein Beispiel für eine Äquivalenzrelation auf Z. Def inition 2.30 (Äquivalenzrelation, Äquivalenzklasse). Sei X eine Menge. Eine Teilmenge R ⊆ X × X ist eine Äquivalenzrelation auf X, wenn gilt: (A1) Reflexivität: (x, x) ∈ R für alle x ∈ X. (A2) Symmetrie: Aus (x, y) ∈ R folgt (y, x) ∈ R. (A3) Transitivität: Aus (x, y), (y, z) ∈ R folgt (x, z) ∈ R. Anstelle von (x, y) ∈ R schreibt man oft xRy. Zu x ∈ X heißt die Teilmenge [x]R := {y ∈ Y | (x, y) ∈ R } die Äquivalenzklasse von x bezüglich R. Die Äquivalenzklassen bezüglich der Kongruenz modulo n sind die n Restklassen. Man rechnet mit Hilfe von (5) leicht nach: Satz 2.31. Sei n ∈ N \ {0}. Die Kongruenz modulo n ist eine Äquivalenzrelation auf den gaznzen Zahlen Z. Kapitel 3 Vektorräume Zentraler Gegenstand der linearen Algebra sind Vektorräume, die wir in diesem Abschnitt kennenenlernen. Wir definieren den Begriff und führen Untervektorräume, Basen und Dimension ein. 1. Vektorraum und Untervektorraum Wir beginnen mit der Definition des Vektorraums (auch linearer Raum genannt): Def inition 3.1 (Vektorraum). Sei K ein Körper. Eine nichtleere Menge V mit zwei Verknüpfungen +: V × V → V , · : K×V →V , (v, w) 7→ v + w (Addition) (λ, v) 7→ λ · v (Skalare Multiplikation) heißt K-Vektorraum, wenn für alle λ, µ ∈ K und v, w ∈ V gilt: a) (V, +) ist eine kommutative Gruppe. b) Assozitativität: λ · (µ · v) = (λ · µ) · v c) Distributivität: (λ + µ) · v = λ · v + µ · v, λ · (v + w) = λ · v + λ · w d) 1 · v = v. Ein Vektorraum ist eine kommutative Gruppe mit einer äußeren Verknüpfung zu einem Körper. Statt K-Vektorraum sagt man auch Vektorraum über K. Die Elemente v ∈ V heißen Vektoren, die Elemente λ ∈ K nennt man Skalare. Wir schreiben 0 für den Nullvektor bzw. einfach 0, wenn Verwechselungen mit dem Nullelement des Körpers K ausgeschlossen werden können. Beispiel 3.2. Betrachte einige Beispiele zu Vektorräumen. 29 30 3. Vektorräume • Sei K ein Körper. Die Menge Kn bildet mit den komponentenweise definierten Operationen λx1 x1 + y1 x1 x1 y1 .. .. .. λ · ... = ... . + . = . xn λxn xn + yn xn yn einen K-Vektorraum. Da die Operationen komponentenweise definiert sind, übertragen sich die Rechengesetze von K und die Vektorraumaxiome gelten. • Sei K ein Körper. Dann ist die Menge der m × n Matrizen Mm,n (K) über diesem Körper zusammen mit Addition und skalaren Multiplikation ein KVektorraum. • Die komplexen Zahlen C lassen sich als R-Vektorraum interpretieren. Dabei ist die Addition die in Kapitel 1 angegebene und die Multiplikation mit einem Skalar λ ist die Multiplikation einer reellen Zahl mit einer komplexen Zahl: λ(a + ib) = (λ + i0)(a + ib) = λa + iλb. • Sei ein X nichtleere Menge und K ein Körper. Dann ist die Menge der Abbildungen von X nach K Abb(X, K) := {f | f : X → K } mit der Addition (f + g)(x) 7→ f (x) + g(x) und der skalaren Multiplikation (λf )(x) 7→ λf (x) ein K-Vektorraum. Wir folgern aus den Axiomen des Vektorraums: Lemma 3.3. In einem K-Vektorraum V gelten folgende Rechenregeln: a) Für v ∈ V und λ ∈ K gilt 0 · v = λ · 0 = 0. b) Aus λ · v = 0 mit λ ∈ K und v ∈ V folgt λ = 0 oder v = 0. c) Für v ∈ V gilt (−1) · v = −v. Beweis. Seien v ∈ V und λ ∈ K. Aus der Distributivität folgt: 0 + 0 · v = 0 · v = (0 + 0) · v = 0 · v + 0 · v 0 + λ · 0 = λ · 0 = λ · (0 + 0) = λ · 0 + λ · 0. Da (V, +) eine Gruppe ist, folgt 0 · v = λ · 0 = 0. Sei λ · v = 0 und λ 6= 0. Nach Definition des Vektorraums ist 1 · v = v. Wir erhalten: v = 1 · v = (λ−1 λ) · v = λ−1 · (λ · v) = λ−1 · 0. Aus Eigenschaft a) folgt v = 0. Aufgrund des Distributivgesetzes gilt: v + (−1) · v = 1 · v + (−1) · v = (1 − 1) · v = 0 · v. Aus Eigenschaft a) folgt 0 · v = 0, so dass (−1) · v das additive Inverse zu v ist. Analog zu Untergruppen, -ringen und -körpern definiert man Untervektorräume und aufbauend auf diesen weitere Teilstrukturen von Vektorräumen. 1. Vektorraum und Untervektorraum 31 Def inition 3.4 (Untervektorraum). Sei V ein K-Vektorraum. Eine nichtleere Teilmenge U ⊆ V heißt Untervektorraum, wenn sie ein K-Vektorraum ist. Betrachten wir Beispiele von Untervektorräumen: • Im R2 bilden die Punkte Ga = (x, y)T ∈ R2 y = ax einer Geraden durch den Ursprung, für ein festes a ∈ R, einen Untervektorraum des R2 . • Sei K ein Körper. Die Menge UDn (K) der unteren n × n-Dreiecksmatrizen ist ein Untervektorraum des K-Vektorraums der n × n Matrizen Mm,n (K). Lemma 3.5. Eine nichtleere Teilmenge U eines K-Vektorraums V ist genau dann ein Untervektorraum, wenn sie abgeschlossen gegenüber Addition und skalarer Multiplikation ist. Beweis. Falls U ein Untervektorraum von V darstellt, ist er abgeschlossen gegenüber Addition und skalarer Multiplikation. Umgekehrt, angenommen U ⊆ H ist abgeschlossen gegenüber Addition und skalarer Multiplikation. Seien v, w ∈ U und λ ∈ K. Assoziativität, Distributivität und 1 · v = v übertragen sich von V auf U . Bleibt zu zeigen, dass U mit der Addition eine kommutative Gruppe bildet. Mit u ∈ U ist −1 · u = −u ∈ U , so dass zu u, v ∈ U auch u − v ∈ U . Aus dem Untergruppenkriterium, Satz 2.17 auf Seite 23, folgt die Behauptung. Im R2 ist eine Gerade Ga,b , die nicht durch den Ursprung geht, Ga,b = (x, y)T ∈ R2 y = ax + b mit a, b ∈ R und b 6= 0, ein verschobene Untervektorraum“: ” Ga,b = (0, b)T + (x, y)T ∈ R2 y = ax = (0, b)T + Ga . Wir führen für verschobene Unterräume“ den Begriff des affinen Unterräums ein: ” Def inition 3.6 (Affiner Unterraum, Richtungsraum, Parallel). Eine Teilmenge A eines K-Vektorraums V heißt affiner Unterraum, wenn sie leer ist oder es ein a0 ∈ A und einen Untervektorraum U ⊆ V mit A = a0 + U gibt. Wir nennen R(A) := U = {x − a0 | x ∈ A } = {x − y | x, y ∈ A } Richtungsraum von A. Affine Unterräume A und A0 heißen parallel, A k A0 , falls R(A) ⊆ R(A0 ) oder R(A0 ) ⊆ R(A). Beachte, dass der Richtungsraum R(A) unabhängig von a0 ist. Wie wir später sehen werden, sind Geraden die eindimensionalen affinen Unterräume des Kn und die Hyperebenen die affinen Unterräume des Kn der Dimension n − 1. Def inition 3.7 (Gerade, Hyperebene). Eine Teilmenge G ⊆ Kn heißt Gerade, falls es a, a0 ∈ Kn gibt mit G = a0 + Ka = {a0 + λa | λ ∈ K } . Eine Teilmenge H ⊆ Kn heißt Hyperebene, falls es a ∈ Kn , a 6= 0, und b ∈ K gibt mit H = x ∈ Kn aT x = b = Lös(aT , b). 32 3. Vektorräume Wir können die Lösungsmengen linearer Gleichungssysteme mit der Terminologie der Vektorräume beschreiben. Sei A ∈ Mm,n (K) und b ∈ Km . Dann ist Lös(A, b) ⊆ Kn ein affiner Unterraum mit dem Richtungsraum Lös(A, 0). Umgekehrt gilt, dass jeder affine Unterraum Lösungsmenge eines inhomogenen linearen Gleichungssystem ist. Wir werden den Beweis zu einem späteren Zeitpunkt geben. 2. Lineare Unabhängigkeit, Basen und Dimension Schließt man eine Menge von Vektoren aus einem Vektorraum linear ab, ergibt dies den von diesen Vektoren erzeugten Unterraum. Als erstes führen wir dazu den Begriff der Linearkombination ein: Def inition 3.8 (Linearkombination). Sei V ein K-Vektorraum, v1 , . . . , vn ∈ V und λ1 , . . . , λn ∈ K. Dann heißt der Vektor n X v= λi vi = λ1 v1 + . . . + λn vn i=1 eine Linearkombination der Vektoren v1 , . . . , vn . Beachte, dass eine Linearkombination nur aus endlich vielen Vektoren besteht. Linearkombinationen, die durch Permutationen der Summanden auseinander hervorgehen, sind gleich. Bildet man zu gegebenen Vektoren alle möglichen Linearkombinationen, heißt dies lineare Hülle: Def inition 3.9 (Lineare Hülle). Sei V ein K-Vektorraum. Die lineare Hülle (linearer Abschluß, Erzeugnis oder Spann) von X = {x1 , x2 , . . .} ⊆ V ist ( n ) X span(X) := λi xi n ∈ N, λi ∈ K, xi ∈ X . i=1 Für endliche X sei λi = 0 für i > |X|. Andere Schreibweisen für span(X) sind L(X) und hXi. Die lineare Hülle einer unendlichen Menge von Vektoren besteht aus den Linearkombinationen aller endlichen Teilmengen dieser Menge. Die lineare Hülle einer endlichen Menge von Vektoren X = {x1 , . . . , xn } besteht aus allen Linearkombinationen dieser Vektoren: ( n ) n X X span(X) := λi xi λi ∈ K = Kxi . i=1 i=1 Die lineare Hülle von Vektoren ist nach Lemma 3.5 ein Untervektorraum, denn mit u, v ∈ span(X) und λ ∈ K gilt n n n X X X u+v = λi xi + µi xi = (λi + µi )xi ∈ span(X) i=1 n X λv = λ i=1 i=1 n X λi vi = i=1 i=1 (λλi )vi ∈ span(X). 2. Lineare Unabhängigkeit, Basen und Dimension 33 Für X = ∅ erhalten wir in Definition 3.9 die leere Summe und als Erzeugnis der leeren Menge den kleinstmöglichen Untervektorraum: span(∅) = {0}. Def inition 3.10 (Erzeugendensystem). Sei V ein K-Vektorraum und X ⊆ V . Ein Erzeugendsystem von span(X) ist eine Teilmenge Y ⊆ X mit span(Y ) = span(X). Die Definition legt nahe, dass nicht alle Vektoren einer Menge für ihr Erzeugnis wesentlich sind. Tatsächlich verändert sich die lineare Hülle einer Menge von Vektoren X nicht, fügt man eine Linearkombination von Vektoren aus X hinzu. Läßt sich der hinzugefügte Vektor nicht als Linearkombination von Vektoren aus X darstellen, so verändert seine Hinzunahme die lineare Hülle. Wir führen für diesen Sachverhalt den Begriff der linearen Unabhängigkeit ein: Def inition 3.11 (Linear unabhängig). Sei V ein K-Vektorraum. Eine Teilmenge X = {x1 , . . . , xn } ⊆ V heißt linear unabhängig, falls für λ1 , . . . , λn ∈ K gilt n X λi xi = 0 =⇒ λ1 = . . . = λn = 0. i=1 X heißt linear abhängig, falls X nicht linear unabhängig ist. Eine unendliche Menge von Vektoren heißt linear unabhängig, wenn jede endliche Teilmenge linear unabhängig ist, und heißt linear abhängig, wenn sie eine endliche linear abhängige Teilmenge enthält. Die leere Menge ist linear unabhängig. Eine Menge von Vektoren ist linear unabhängig, wenn der Nullvektor nur die triviale Darstellung hat. Aus der Definition folgt direkt: Satz 3.12. Sei V ein K-Vektorraum und X = {x1 , . . . , xn } ⊆ V . Dann sind folgende Aussagen äquivalent: a) X ist linear unabhängig. b) Die Darstellung der Null als Linearkombination der xi ist eindeutig. Pn c) Für (λ1 , . . . , λn ) ∈ Kn \ {0} ist i=1 λi xi 6= 0. Beispiel 3.13. Es gilt: • Im Kn sind die Vektoren (1, 1, 1), (1, 1, 0), (0, 0, 1) linear abhängig, denn 1 · (1, 1, 1) − 1 · (1, 1, 0) − 1 · (0, 0, 1) = 0 i • Wir nennen ei := (0, . . . , 0, 1, 0, . . . , 0) ∈ Kn den i-ten kanonischen Einheitsvektor. Die Einheitsvektoren sind linear unabhängig, da jede Komponente einer Linearkombination nur von genau einem der Einheitsvektoren bestimmt wird; sollen alle Komponenten der Linearkombination 0 sein, müssen daher auch alle Koeffizienten 0 sein. • Der Nullvektor ist stets linear abhängig (denn 1 · 0 = 0). • Seien a = (a1 , a2 ), b = (b1 , b2 ) ∈ R2 . Dann gilt – a, b sind genau dann linear abhängig, wenn es ein λ ∈ R gibt mit a = λb oder b = λa. – a, b sind genau dann linear unabhängig, wenn 4(a, b) = a1 b2 −a2 b1 6= 0. 34 3. Vektorräume • Die Richtungsräume von Geraden sind genau dann linear abhängig, wenn die Geraden parallel sind. Wir zeichnen bestimmte Erzeugendensysteme aus und weisen anschließend nach, dass diese minimal sind: Def inition 3.14 (Basis). Sei V ein K-Vektorraum. Eine Teilmenge B ⊂ V heißt Basis von V , wenn sie ein linear unabhängiges Erzeugendensystem von V ist. Die Einheitsvektoren bilden offenbar eine Basis des Kn . Wir bezeichnen diese Basis als die Standardbasis des Kn . Offensichtlich ist die Darstellung eines Vektors als Linearkombination der Standardbasis eindeutig. Satz 3.15. Sei V ein K-Vektorraum. B ⊂ V ist genau dann eine Basis von V , wenn für alle B 0 ( B gilt span(B 0 ) 6= V . Beweis. Sei V ein K-Vektorraum und B ⊂ V . Wir zeigen beide Richtungen: Wir zeigen zuerst, falls B eine Basis ist, dann ist B auch ein minimales Erzeugendensystem. Wir beweisen dazu, dass ein Erzeugendensystem, welches nicht minimal ist, auch keine Basis bildet (Beweis durch Kontraposition). Sei B 0 ein Erzeugendensystem mit B 0 ( B und span(B 0 ) = span(B). Dann existiert ein b ∈ B \ B 0 mit P b ∈ span(B 0 ). Wir stellen b als Linearkombination der Elemente von B 0 dar: b = ni=1 λi b0i mit b01 , . . . , b0n ∈ B 0 . Damit erhält man eine nicht-triviale Darstellung der Null 0=b− n X λi b0i i=1 Also sind b01 , . . . , b0n , b linear abhängig, und B ist keine Basis. Wir zeigen, falls B ein minimales Erzeugendensystem ist, dann ist B eine Basis. Wir führen dazu einen Beweis durch Kontraposition und beweisen, dass B nicht minimal ist, wenn B keine Basis ist. Sei B = {b1 , . . . , bn } ⊆ V ein linear abhängiges ErP zeugendensystem. Dann gibt es eine nichttriviale Darstellung der Null ni=1 λi bi = 0 mit (λ1 , . . . , λn ) ∈ Kn \ {0}. Wir nehmen o.B.d.A. an,1 dass λ1 6= 0 (sonst benenne die bi entsprechend um). Dann ist b1 = n X λi bi ∈ span(b2 , . . . , bn ) λ1 i=2 B0 und = {b2 , . . . , bn } bildet ein Erzeugendensystem.2 Wegen B 0 = B \{b1 } ist B nicht minimal. Korollar 3.16. Jeder Vektorraum hat eine Basis. 1Ohne Beschränkung der Allgemeinheit: Diese Annahme dient nur der Vereinfachung der folgen- den Darstellung und kann stets erfüllt werden (z.B. durch Umbennung der Indizes). 2Die Division ist möglich, da der Vektorraum über einem Körper definiert ist. 2. Lineare Unabhängigkeit, Basen und Dimension 35 Für endlich erzeugte Vektorräume folgt Korollar 3.16 unmittelbar aus Satz 3.15. Für unendlich erzeugte Vektorräume benötigt man zusätzlich das Lemma von Zorn: In der Menge der linear unabhängigen Teilmengen gibt es ein maximales Element. Satz 3.17. Sei V ein K-Vektorraum, I eine Indexmenge und B = {bi | i ∈ I } ⊂ V eine Basis von V . Dann hat jedes v ∈ V genau eine endliche Darstellung X v= λ i bi mit λi ∈ K. i∈I Da zu einer gegebenen, geordneten3 Basis B jeder Vektor v eine eindeutige Darstellung als Linearkombination der Basisvektoren hat, sind die Koeffizienten λi dieser Darstellung eindeutig festgelegt. Man nennt λ := (λi | i ∈ I) den Koordinatenvektor von v bezüglich der Basis B und schreibt: X v = Bλ = λ i bi . i∈I Beweis. Wir führen den Beweis zu zu Satz 3.17 durch Widerspruch. Sei V ein KVektorraum und B = {b1 , . . . , bn , . . .} ⊂ V eine Basis von V . Angenommen, es gäbe zwei unterschiedliche Darstellungen eines Vektors v ∈ V n X i=1 λ i bi = n X λ0i bi i=1 Pn 0 Dann ist mit (λ1 , . . . , λn ) 6= i=1 (λi − λi )bi = 0 eine nicht-triviale Darstellung der Null und B keine Basis — Widerspruch zur Annahme. (λ01 , . . . , λ0n ). In Aufgabe 5.2 zeigen wir, dass Vektorraum-Isomorphismen Basen auf Basen abbilden: Satz 3.18. Seien V1 , V2 K-Vektorräume und ψ : V1 → V2 ein Isomorphismus. Dann gilt: a) Genau dann sind ψ(v1 ), . . . , ψ(vm ) ∈ V2 linear unabhängig, wenn v1 , . . . , vn ∈ V1 linear unabhängig sind. b) Genau dann bilden ψ(b1 ), . . . , ψ(bn ) eine Basis von V2 , wenn b1 , . . . , bn eine Basis von V1 darstellen. Die bisherigen Überlegungen gelten sowohl für endlich erzeugte als auch für unendlich erzeugte Vektorräume. Im weiteren beschränken wir uns auf endlich erzeugte Vektorräume. Für diese formulieren wir das folgende Lemma: Lemma 3.19. Sei V ein K-Vektorraum mit Basis B = {b1 , . . . , bn }.Dann ist V ∼ = Kn . P Beweis. Da jedes v ∈ V eine eindeutige Darstellung v = ni=1 λi bi mit λ1 , . . . , λn ∈ K hat, ist die Abbildung ψ : Kn → V mit f (λ) := Bλ bijektiv. Weil ψ ein Homomorphismus von Vektorräumen ist, folgt die Behauptung. 3D.h. die Reihenfolge der Vektoren in der Basis ist fixiert. 36 3. Vektorräume Unser Ziel ist es zu zeigen, dass alle Basen von V dieselbe Mächtigkeit haben. Wir werden für diese Zahl den Begriff der Dimension des Vektorraums in Definition 3.23 einführen. Satz 3.20. Je n linear unabhängige Vektoren des Kn bilden eine Basis des Kn . Beweis. Seien a1 , . . . , an ∈ Kn linear unabhängige Vektoren. Es ist zu zeigen, dass diese Vektoren ein Erzeugendensystem des Kn sind, also span(a1 , . . . , an ) = Kn . Da span(a1 , . . . , an ) ⊆ Kn trivialerweise gilt, bleibt Kn ⊆ span(a1 , . . . , an ) nachzuweisen. Dies gilt, wenn die Matrix mit den Spalten a1 , . . . , an A = a1 · · · an ∈ Mn,n (K) invertierbar ist. Denn wenn es ein multiplikatives Inverses A−1 ∈ Mn,n (K) zu A gibt, ist x = A−1 b für jedes b ∈ Kn eine Lösung des linearen Gleichungssystems Ax = b und damit läßt sich jeder Vektor b ∈ Kn als Linearkombination der Spalten a1 , . . . , an von A (mit Koeffizienten x1 , . . . , xn ) darstellen. Wir zeigen die Invertierbarkeit von A. Nach Übungsaufgabe 2.4 gibt es Permutationsmatrizen P1 , P2 ∈ Mn,n (K), so dass das Gauß-Verfahren auf P1 AP2 ohne Zeilen- und Spaltenvertauschungen auskommt. Nach Satz 1.16 auf Seite 12 gibt es T = (ti,j ) ∈ UDn mit t11 = · · · = tnn = 1, B ∈ ODn , so dass P1 AP2 = T B. Es genügt zu zeigen, dass es zu B eine inverse Matrix B −1 gibt, denn dann hat A = P1−1 T BP2−1 die Inverse A−1 = P2 B −1 T −1 P1 . Sei O.B.d.A. P1 = P2 = In . Wir zeigen durch Widerspruch, dass für B = (bij ) gilt b11 b22 · · · bnn 6= 0, so dass nach Übungsaufgabe 4.2 ein Inverses B −1 existiert. Angenommen, es gäbe ein i mit bii = 0. Wähle das maximale i mit bii = 0: i ∗ 0 . T .. b1 . .. . B = . = i . bTn ... . . . 0 ∗ .. . .. . ··· ··· .. . ∗ .. . ··· ··· .. ··· ··· . 0 .. . ··· .. . bi+1,i+1 .. . ··· .. . .. . 0 ∗ .. . .. . .. . .. . ∗ bn,n Dann gilt bTi = n X j=i+1 λj bTj mit λi+1 , . . . , λn ∈ K, (8) 2. Lineare Unabhängigkeit, Basen und Dimension 37 denn mit bi+1,i+1 ∗ .. 0 . B0 = .. . .. . 0 ··· und b0 Ti ··· .. . .. . 0 ∗ .. . ∗ bn,n = (bi,i+1 , . . . , bi,n ) ist T T b0 i = x0 B 0 lösbar durch x0 T = b0 Ti B −1 . Dabei existiert B −1 wegen bi+1,i+1 · · · bn,n 6= 0. Andererseits sind bT1 , . . . , bTn linear unabhängig, denn wegen A = T B gilt T −1 aTi = bTi . Da aT 7→ T aT Homomorphismus von Vektorräumen ist und die Umkehrabbildung aT 7→ T aT ebenfalls, ist aT 7→ T −1 aT Isomorphismus von Vektorräumen. Damit folgt aus der linearen Unabhängigkeit von aT1 , . . . , aTn , dass b1 , . . . , bn linear unabhängig sind im Widerspruch zu (8). Also ist b11 · · · bnn 6= 0 und B und A sind invertierbar. Lemma 3.21. Es gilt Kn ∼ = Km genau dann, wenn n = m. ∼ Km . Umgekehrt zeigen wir, dass Kn ∼ Beweis. Aus n = m folgt unmittelbar Kn = = m m n ∼ K impliziert n = m. Angenommen, es sei K = K für m < n. Dann gäbe es einen Vektorraum-Isomorphismus ψ : Kn → Km und die Bilder {ψ(e1 ), . . . , ψ(en )} der Standardbasis e1 , . . . , en des Kn wären gemäß Satz 3.18 linear unabhängig. Nach Satz 3.20 ist andererseits ψ(e1 ), . . . , ψ(em ) Basis des Km . Widerspruch, da alle Basen eines Vektorraums die gleiche Länge haben. Lemma 3.22. Sei V ein K-Vektorraum. Dann sind folgende Aussagen äquivalent: a) V ∼ = Kn . b) Jede Basis von V hat die Mächtigkeit n. c) Die Maximalzahl linear unabhängiger Vektoren in V ist n. Beweis. Die Äquivalenz a) ⇐⇒ b) folgt aus den Lemmata 3.19 und 3.21. Wir zeigen die Äquivalenz b) ⇐⇒ c). Seien {b1 , . . . , bm } linear unabhängige Vektoren, so dass m maximal ist. Dann gilt span({b1 , . . . , bm }) = V , denn jeder Vektor v ∈ V \ span({b1 , . . . , bm }) ist linear unabhängig von {b1 , . . . , bm }. Somit ist b1 , . . . , bm eine Basis von V . Es folgt m = n, wobei n durch die Äquivalenz von a) und b) eindeutig erklärt ist. Alle Basen eines endlich erzeugten Vektorraums haben die gleiche Mächtigkeit. Wir nennen diese Zahl die Dimension des Vektorraums. Da die Dimension endlich erzeugter Vektorräume eine natürliche Zahl ist, nennt man solche Vektorräume endlich dimensional. Def inition 3.23 (Dimension). Sei V ein K-Vektorraum mit V ∼ = Kn . Dann heißt dim V := n die Dimension von V . Der Begriff der linearen Unabhängigkeit liefert ein Kriterium für die Invertierbarkeit von Matrizen: 38 3. Vektorräume Satz 3.24 (Invertierbarkeitskriterium für Matrizen). Für quadratische Matrizen A ∈ Mn,n (K) sind folgende Aussagen äquivalent: a) A ∈ GLn (K), d.h. A ist invertierbar. b) AT ∈ GLn (K), d.h. AT ist invertierbar. c) Die Zeilen (Spalten) von A sind linear unabhängig. Beweis. Betrachten wir die Äquivalenz a) ⇐⇒ b). Sei A invertierbar. Dann gibt es ein A−1 ∈ Mn,n (K) mit AA−1 = In . Es gilt (AA−1 )T = InT = In und somit (A−1 )T AT = In . Also (AT )−1 = (A−1 )T . Die Rückrichtung folgt mit (AT )T = A und der gleichen Argumentation. Wir weisen die Äquivalenz a) ⇐⇒ c) nach. Im Beweis zu Satz 3.20 wurde gezeigt, dass A invertierbar ist, wenn die Zeilen von A linear unabhängig sind. Für reguläre A hat das homogene lineare Gleichungssystem Ax = 0 nur die triviale Lösung x = 0, denn die Abbildung ψ : x 7→ Ax ist invertierbar ψ −1 : y 7→ A−1 y. Andererseits gilt: aT1 , . . . , aTn sind linear abhängig ⇐⇒ Ax = 0 für ein x ∈ Kn \ {0}. Also folgt, dass aT1 , . . . , aTn linear unabhängig sind. Linear unabhängige Vektoren können zu einer Basis ergänzt werden. Wir beginnen mit der Existenz einer solchen Ergänzung: Satz 3.25 (Basisergänzungssatz). Sei V ein K-Vektorraum mit n := dim V und U ⊆ V ein Untervektorraum von V mit m := dim U . Dann kann man jede Basis {b1 , . . . , bm } von U zu einer Basis {b1 , . . . , bm , . . . , bn } von V erweitern. Beweis. Wir führen den Beweis durch vollständige Induktion nach k := n − m: • Die Induktionsverankerung erfolgt für k = 0, indem wir zeigen, dass jede Basis von U auch Basis von V ist, d.h. U = V . Dies gilt nach Satz 3.20 für V = Kn und damit wegen V ∼ = Kn für jedes V . • Der Induktionsschritt erfolgt von k − 1 nach k. Wir wählen bm+1 ∈ V \ U . Dann sind {b1 , . . . , bm+1 } linear unabhängig. Sei U 0 = span(b1 , . . . , bm+1 ). Die Induktionsannahme gilt für U 0 und V wegen dim V − dim U 0 = k − 1. Also gibt es {bm+2 , . . . , bn } so dass {b1 , . . . , bn } Basis von V ist. Dies war zu zeigen. Aus dem Beweis des Basisergänzungssatzes folgt: Korollar 3.26 (Austauschsatz von Steinitz). Sei BV Basis von V . Dann kann man im Basisergänzungssatz 3.25 die Vektoren bm+1 , . . . , bn in BV wählen. Beweis. Es gibt ein bm+1 ∈ BV so dass {b1 , . . . , bm , bm+1 } linear unabhängig ist. Damit kann bm+1 im Induktionsschritt in BV gewählt werden. In Anlehnung an den Satz über die Mächtigkeit der Vereinigung zweier endlicher Mengen |X ∪ Y | = |X| + |Y | − |X ∩ Y | formulieren wir einen Satz über die Dimension der Summe U + V := {u + v | u ∈ U, v ∈ V } zweier Untervektorräume U, V : 2. Lineare Unabhängigkeit, Basen und Dimension 39 Satz 3.27 (Dimensionssatz). Sei W ein K-Vektorraum und U, V ⊆ W Untervektorräume von W . Dann gilt dim(U + V ) = dim U + dim V − dim(U ∩ V ). Beweis. Wir führen einen direkten Beweis. Sei B eine Basis von U ∩ V . Nach Satz 3.25 gibt es Basen B ∪ B 0 von U sowie B ∪ B 00 von V . Wir zeigen, dass B ∪ B 0 ∪ B 00 eine Basis von U + V ist. Wegen span(B ∪ B 0 ) = U und span(B ∪ B 00 ) = V gilt U + V = span(B ∪ B 0 ∪ B 00 ). Sei X λ i bi + bi ∈B X λ0i b0i + b0i ∈B0 X λ00i b00i = 0. =− X 00 b00 i ∈B Dann ist U3 X λ i bi + X λ0i b0i λ00i b00i ∈ V P 00 00 und λi bi ∈ U ∩ V . Andererseits ist B ∪ B00 linear unabhängig und B eine Basis von U ∩ V . Aufgrund der Eindeutigkeit der Darstellung sind somit alle λ00i = 0. Aus Symmetriegründen sind alle λ0i = 0. Weil B eine Basis ist, sind alle λi = 0, und der Nullvektor hat nur die triviale Darstellung. Damit ist B ∪ B 0 ∪ B 00 linear unabhängig. Weil B, B 0 , B 00 paarweise disjunkt sind gilt: |B ∪ B 0 ∪ B 00 | = |B ∪ B 0 | + |B ∪ B 00 | − |B| dim(U + V ) = dim U + dim V − dim(U ∩ V ). Dies war zu zeigen. Kapitel 4 Polynome In diesem Abschnitt lernen wir den Vektorraum und Ring der Polynome kennen. Wir betrachten Polynome dabei als formale, algebraische Objekte. 1. Vektorraum und Ring der Polynome Sei K ein Körper und X ∈ / K ein Symbol, das wir Unbestimmte nennen. Für i ∈ N i bezeichne X die i-te Potenz von X, also X i := XX . . . X} . | {z i Faktoren Zusätzlich sei X 0 := 1. Das Symbol X verhält sich wie ein Körperelement, d.h. zum Beispiel ist die Multiplikation von X i mit einem Körperelement λ ∈ K kommutativ, also X i ·λ = λ·X i . Wir suchen nicht, wie bei einem linearen Gleichungssystem Ax = b, eine Lösung x, sondern betrachten X als formales Objekt. Um diesen Unterschied hervorzuheben, verwenden andere Autoren als Unbestimmte statt X alternativ t oder τ. Def inition 4.1 (Polynom). Sei K ein Körper und X ∈ / K ein Symbol. Ein Polynom p(X) über K ist eine endliche (formale) Potenzreihe der Form 2 n p(X) := p0 + p1 X + p2 X + · · · + pn X = n X pi X i i=0 mit Koeffizienten p0 , p1 , . . . , pn ∈ K. Der Vektor koeffvekn (p) := (p0 , p1 , . . . , pn ) ∈ Kn+1 heißt der Koeffizientenvektor des Polynoms p(X). Als Nullpolynom bezeichnet man das Polynom, dessen Koeffizienten alle Null sind. P Meist schreibt man kurz p statt p(X) und läßt bei der Darstellung ni=0 pi X i diejenigen Monome pi X i weg, deren Koeffizienten pi gleich Null sind. Für das Nullpolynom schreiben wir einfach 0. 41 42 4. Polynome Beispiel 4.2. Wir betrachten einige Beispiele von Polynomen über R: u = 9 − 2X 2 koeffvek2 (u) = (9, 0, −2) 2 v = 1 + 2X + 4X + 16X 4 koeffvek5 (v) = (1, 2, 4, 0, 16, 0) w=X koeffvek1 (w) = (0, 1) Pn Def inition 4.3 (Grad eines Polynoms). Sei p(X) = i=0 pi X i ein Polynom ungleich dem Nullpolynom. Der Grad deg p des Polynoms p ist gleich dem maximalen Index k mit pk 6= 0: deg p = max {i ∈ N0 | pi 6= 0 } . Für das Nullpolynom definieren wir deg 0 := −∞. Das Nullpolynom und Polynome mit Grad 0 werden als konstante Polynome bezeichnet. Manche Autoren setzen deg 0 := 0, allerdings muß dann in der Gradformel, die wir später kennenlernen, der Fall der Nullpolynome gesondert betrachtet werden. Die Rechenregeln für −∞ sind einprägsam, interpretiert man −∞ als kleiner als jede ” Zahl“, so dass für alle z ∈ R gilt −∞ + z = −∞ z + (−∞) = −∞ −∞ + (−∞) = −∞. und −∞ < z. Einige Beispiele sollen die Definition des Grads von Polynomen verdeutlichen: Beispiel 4.4. Für die Polynome u, v, w über R gilt: u = X + 7X 2 + 0 · X 5 deg u = 2 v = 1 + 2X + X 3 + 3X 4 deg v = 4 w=X deg w = 1 Pn i Zu einem Polynom p(X) = i=0 pi X vom Grad n ≥ 1 heißt der Koeffizient pn der führende Koeffizient von p. Ist der führende Koeffizient 1, heißt das Polynom normiert. Von den drei Polynomen in Beispiel 4.4 ist nur w ein normiertes Polynom, der führende Koeffizient von u ist 7, der von v gleich 3. P Def inition von Polynomen). Zwei Polynome p(X) = ni=0 pi X i und Pm 4.5 (Gleichheit q(X) = i=0 qi X i über einem Körper K sind gleich, wenn deg p = deg q und pi = qi für i = 0, 1, . . . , deg p. Zur Definition ist äquivalent, dass zwei Polynome p, q über einem Körper K genau dann gleich sind, wenn für t := max{deg p, deg q, 0} koeffvekt (p) = koeffvekt (q) 1. Vektorraum und Ring der Polynome 43 in Kt+1 übereinstimmen.1 Insbesondere entspricht jeder Koeffizientenvektor einem eindeutig bestimmten Polynom und umgekehrt: Lemma 4.6. Sei K ein Körper und K[X]n die Menge aller Polynome über K mit Grad kleiner oder gleich n. Dann ist die Abbildung koeffvekn : K[X]n → Kn+1 , n X pi X i 7→ (p0 , p1 , . . . , pn ) i=0 bijektiv. Beweis. Aus der Vorüberlegung folgt, dass die Abbildung koeffvekn injektiv ist, d.h. für alle p(X), q(X) ∈ K[X]n mit koeffvekn (p) = koeffvekn (q) gilt auch die Gleichheit p(X) = q(X) der Polynome. Die Abbildung ist ebenfalls surjektiv, denn für alle P a = (a0 , a1 , . . . , an ) ∈ Kn+1 ist p(X) = ni=0 ai X i ein Polynom mit koeffvekn (p) = a. P P Zu zwei Polynomen p(X) = ni=0 pi X i und q(X) = ni=0 qi X i über einem Körper K definieren wir die Summe als n X p(X) + q(X) := (pi + qi )X i i=0 und, da es sich ebenfalls um ein Polynom handelt, schreibt man kurz (p + q)(X). In Form der Koeffizientenvektoren bedeutet die Addition: koeffvekn (p + q) = koeffvekn (p) + koeffvekn (q) Wir führen zusätzlich die Multiplikation mit Körperelementen λ ∈ K ein (Skalarmultiplikation): λ · p(X) := n X (λ · pi )X i . i=0 Da es sich ebenfalls um ein Polynom handelt, schreibt man kurz (λp)(X). In Form der Koeffizientenvektoren bedeutet die Multiplikation mit einem Skalar λ: koeffvekn (λp) = λ · koeffvekn (p). Beispiel 4.7. Betrachten wir ein Beispiel mit den beiden Polynomen p = X 2 und q = 3X + X 2 + 2X 3 über R: 3 · p + 4 · q = (3X 2 ) + (12X + 4X 2 + 8X 3 ) = 12X + 7X 2 + 8X 3 . Der Grad der Summe zweier Polynome p und q ist offenbar höchstens so groß wie das Maximum von deg p und deg q. Er kann aber auch kleiner sein, wenn beide Polynome den gleichen Grad haben und die Summe beider führender Koeffizienten Null ist. Zum Beispiel: (1 + X 2 ) + (1 − X 2 ) = 2. 1Beachte: Für p(X) = q(X) = 0 ist t = 0. 44 4. Polynome Bei der Skalarmultiplikation bleibt der Grad des Polynoms erhalten, sofern der Skalar nicht die Null ist. Korollar 4.8. Sei K ein Körper, p, q Polynome über K und λ ∈ K \ {0}. Dann gilt: deg(p + q) ≤ max{deg p, deg q} deg(λp) = deg p. Für λ = 0 ist deg(λp) = −∞. Betrachten wir die Menge der Polynome mit beschränktem Grad, so ist diese unter Addition und Multiplikation mit Skalaren abgeschlossen und bildet einen Vektorraum: Satz 4.9 (Vektorraum der Polynome). Sei K ein Körper und K[X]n die Menge aller Polynome über K mit Grad kleiner oder gleich n. Mit der Addition und der skalaren Multiplikation ist K[X]n ein K-Vektorraum der Dimension n + 1. Beweis. Die Koeffizientenfunktion koeffvekn : K[X]n → Kn+1 ist nach Lemma 4.6 bijektiv. Zusätzlich hat die Abbildung die homomorphen Eigenschaften koeffvekn (p + q) = koeffvekn (p) + koeffvekn (q) koeffvekn (λ · p) = λ · koeffvekn (p), so dass K[X]n isomorph zum Vektorraum Kn+1 der Dimension n + 1 ist. Eine Basis des K-Vektorraums K[X]n bilden die Polynome 1, X, X 2 , . . . , X n , denn: Pn i a) Jedes Polynom p(X) = i=0 pi X kann man als Linearkombination der 2 n Polynome 1, X, X , . . . , X mit Koeffizienten aus K, nämlich p0 , p1 , . . . , pn , schreiben. P b) Die Polynome 1, X, X 2 , . . . , X n sind linear unabhängig, weil aus ni=0 λi Xi = 0 (beachte, 0 steht für das Nullpolynom) mit λ0 , λ1 , . . . , λn ∈ K und der Definition der Gleichheit von Polynomen folgt, dass λ0 = · · · = λn = 0 gilt. Wir können diese Basis auch aus dem Isomorphismus koeffvekn : K[X]n → Kn+1 ableiten, da nach Satz 3.18 auf Seite 35 Isomorphismen Basen auf Basen abbilden. Def inition 4.10 Das Produkt p(X) · q(X) zweier PolyP (Produkt von Polynomen). P i ist definiert als: nome p(X) = ni=0 pi X i und q(X) = m q X i=0 i p(X) · q(X) := n+m i X X i=0 k=0 i pk qi−k X = n+m X i=0 X pk q l X i . k+l=i Dieses Produkt, man nennt es auch Konvolution oder Faltung, ist ebenfalls ein Polynom, für dass wir kurz (p · q)(X) schreiben. Die Koeffizienten u0 , u1 , . . . , un+m des 1. Vektorraum und Ring der Polynome 45 Produkts u(X) = p(X) · q(X) bestehen aus den Summen u 0 = p0 q 0 u 1 = p0 q 1 + p1 q 0 u 2 = p 0 q 2 + p 1 q 1 + p2 q 0 .. . un+m−2 = pn−2 qm + pn−1 qm−1 + pn qm−2 un+m−1 = pn−1 qm + pn qm−1 un+m = pn qm . Die Summen sind symmetrisch: Vertauschen von p(X) und q(X) ändert nicht das Produkt, da die Multiplikation im Körper kommutativ ist. Die Polynommultiplikation ist daher ebenfalls kommutativ. Die Konvolution entspricht genau dem Produkt, faßt man beide Polynome als Summen mit der Variablen X auf: X X X n m n n n X X pi X i · qi X i = q 0 pi X i + q1 pi X i+1 + · · · + qm pi X i+m i=0 i=0 i=0 i=0 i=0 Nach Ordnen der Monome erhalten wie die Formel zur Polynommultiplikation. Satz 4.11 (Gradformel für Polynome). Seien p(X) und q(X) Polynome über einem Körper. Dann gilt für den Grad des Produktes deg(p · q) = deg p + deg q. Beweis. Sei u = p · q das Produkt der beiden Polynome: Nehmen wir zunächst an, p und q seien ungleich dem Nullpolynom. Mit p(X) = deg Xp pi X i und q(X) = i=0 deg Xq qi X i i=0 folgt aus der Definition der Konvolution u= deg X p+deg q X i i=0 pk qi−k X i k=0 dass deg(p · q) ≤ deg p + deg q gilt. Wegen 6=0 udeg p+deg q 6=0 z }| { z }| { = pdeg p · qdeg q 6= 0 ist der Grad von u mindestens deg p + deg q, so dass die Gleichheit gilt.2 Falls p oder q das Nullpolynom ist, trifft dies auch auf das Produkt u zu und die Behauptung folgt aus den Rechenregeln für −∞. 2Beachte: Der Schluß, dass das Produkt ungleich Null ist, wenn beide Faktoren ungleich Null sind, gilt in einem Ring im allgemeinen nicht. 46 4. Polynome Aus der Gradformel folgt, dass K[X]n kein Ring ist, denn zu p ∈ K[X]n mit deg p = n gilt p · p ∈ / K[X]n wegen deg(p · p) = 2n. Beschränken wir aber nicht den Grad der Polynome, erhält man einen Ring: Satz 4.12 (Polynomring). Sei K ein Körper. Dann ist die Menge K[X] aller Polynome über K ein kommutativer, nullteilerfreier Ring mit Eins. Die Körperelemente K bettet man als konstante Polynome in den Ring K[X] ein und schreibt K für die Menge der konstanten Polynome des Ringes K[X]. Beweis. Summe und Produkt zweier Polynome sind ebenfalls Polynome, so dass zu zeigen ist: a) (K[X], +) ist eine abelsche Gruppe. b) Die Multiplikation ist assoziativ und kommutativ, es existiert ein Einselement. c) Distributivgesetze: Für alle u, v, w ∈ K[X] gilt Linksdistributivität: u(v + w) = u · v + u · w. Wegen der Kommutativität der Multiplikation gilt damit auch Rechtsdistributivität: (v + w)u = v · u + w · u. Die Nullteilerfreiheit folgt aus der Gradformel (Satz 4.11). Man rechnet leicht nach, dass (K[X], +) eine abelsche Gruppe ist. Das neutrale Element bezüglich der Addition ist das Nullpolynom. Die Multiplikation ist wie bereits gezeigt kommutativ, und das neutrale Element bezüglich der Multiplikation ist das konstante Polynom p(X) = 1. Für den Nachweis der Assoziativität betrachten wir den i-ten Koeffizienten des Produkts u(vw): =(v·w)j }| z { X X X X vs wt = ur vs wt ur r+j=i s+t=j (Assoziativität von (K, ·)) r+j=i s+t=j = X ur vs wt r+s+t=i = X X ur vs ·wt . | } j+t=i r+s=j {z =(u·v)j Dieser stimmt mit dem i-ten Koeffizienten des Produkts (uv)w überein. Die einzelnen Koeffizienten der beiden Polynome u(vw) und (uv)w sind identisch, so dass (uv)w = u(vw) für alle u, v, w ∈ K[X] gilt. Für den Nachweis des Distributivgesetzes betrachten wir den i-ten Koeffizienten von u(v + w) und verwenden, dass im Körper das Distributivgesetz gilt: X X X X ur (vs + ws ) = (ur vs + ur ws ) = ur vs + ur ws r+s=i r+s=i r+s=i r+s=i 1. Vektorraum und Ring der Polynome 47 Dieser stimmt mit dem i-ten Koeffizienten der Summe uv + uw überein und wir erhalten u(v + w) = u · v + u · w für alle u, v, w ∈ K[X]. In der Schule lernt man bereits Polynome kennen, genauer Polynomfunktionen. Statt P als formale, endliche Potenzreihe faßt man p(X) = ni=0 pi X i als Funktion p : R → R mit p: x 7→ p(x) := n X pi xi ∈ R i=0 auf. Diese Anschauung als Funktionen unterscheidet sich aber von unserer Betrachungsweise. Zum Beispiel können zwei Polynome p, q ∈ K[X] verschieden sein, auch wenn die zugehörigen Polynomfunktionen identisch sind, also p(x) = q(x) für alle x ∈ K gilt. Sei zum Beispiel K = Z2 , d.h. Addition und Multiplikation erfolgen modulo 2, und betrachte das Polynom p(X) = X 2 +2 X ∈ Z2 [X]: p(0) = 02 +2 0 = 0 p(1) = 12 +2 1 = 0. Obwohl die Werte der zugehörigen Polynomfunktion mit der des Nullpolynoms übereinstimmt, sind für uns beide Polynome nicht gleich. Die Polynomfunktion p : x 7→ p(x) ist kein Körperhomomorphismus, denn zum Beispiel für K = R und p(X) = X 2 gilt p(1 + 2) 6= p(1) + p(2). Wir erhalten aber einen Einsetzungshomomorphismus, wenn man die Stelle x fixiert und als Argument Polynome wählt: Satz 4.13 (Einsetzungshomomorphismus). Sei K[X] ein Polynomring und x ∈ K ein Körperelement. Dann ist die Abbildung X ϕx : K[X] → K, p(X) 7→ p(x) := pi xi i≥0 ein Ringhomomorphismus, den man Einsetzungshomomorphismus nennt. Beweis. Wir müssen die beiden Homomorphie-Eigenschaften Additivität und Homogenität nachweisen. Seien p, q ∈ K[X] mit p(X) = n X pi X i und q(X) = i=0 m X qi X i . i=0 Zum Nachweis der Additivität sei o.B.d.A. m = n (erweitere gegebenenfalls das Polynom geringeren Grades um die entsprechenden Monome mit Koeffizient Null). Es gilt ϕx (p + q) = n X i=0 (pi +K qi )xi = n X i=0 pi xi +K n X i=0 qi xi = ϕx (p) + ϕx (q), 48 4. Polynome wegen des Distributivgesetzes in K. Analog zeigt man die Homogenität ϕx (p · q) = ϕx (p) · ϕx (q): X X n m i i ϕx (p) · ϕx (q) = pi x · qi x i=0 = = n X i=0 pi q0 xi + i=0 n+m i X X i=0 n X pi q1 xi+1 + · · · + i=0 n X pi qm xi+m i=0 pk qi−k xi k=0 = ϕx (p · q). Wir haben das Distributivgesetz verwendet und dass Addition und Multiplikation in K kommutativ sind. An welchen Stellen? Wir haben Polynome über einem Körper K betrachtet. Allgemeiner definiert man Polynome über kommutativen Ringen R mit Eins. Analog zu Satz 4.12 zeigt man, dass R[X] ebenfalls ein kommutativer Ring mit Eins ist. Dann gilt aber im allgemeinen deg(p · q) ≤ deg p + deg q, denn es ist möglich, dass das Produkt beider führender Koeffizienten Null ist (zum Beispiel 2X · 2X 2 ∈ Z4 [X]). Falls R Nullteiler enhält, so auch der Polynomring R[X]. Ein bekanntes Beispiel für Polynomringe über einem Ring ist der Ring Z[X] aller Polynome mit ganzzahligen Koeffizienten. Für diesen Ring Z[X] gilt aber weiterhin die Gleichheit bei der Gradformel — Warum? 2. Division mit Rest Wir haben bereits in Kapitel 2.5 die Division mit Rest im Ring Z kennengelernt. Zu a ∈ Z, b ∈ Z \ {0} existieren eindeutig bestimmte Zahlen q, r ∈ Z mit a = qb + r und 0 ≤ r < |b|. Die Zahl r heißt Divisionsrest. Ein analoges Resultat leiten wir für den Polynomring K[X] her, wobei man statt des Absolutbetrags den Grad des Polynoms verwendet. Satz 4.14 (Polynomdivision). Sei K ein Körper und K[X] ein Polynomring sowie a, b ∈ K[X] und b nicht das Nullpolynom. Dann existieren eindeutig bestimmte Polynome q, r ∈ K[X] mit a = qb + r und deg r < deg b. Beweis. Da b nicht das Nullpolynom ist, gilt deg b ≥ 0. Wir beweisen die Aussage in zwei Schritten: (1) Zunächst zeigen wir die Existenz und anschließend, (2) dass die Polynome q, r ∈ K[X] eindeutig bestimmt sind. Die erste Behauptung ist offensichtlich, wenn deg a < deg b, da dann q = 0 und r = a die Bedingung erfüllen. Wir zeigen durch Induktion über deg a, dass die Aussage auch für deg a ≥ deg b ≥ 0 gilt. 2. Division mit Rest 49 • Verankerung: Sei deg a = 0, also a(X) = a0 . Wegen deg b ≤ deg a und b 6= 0 hat das Polynom b die Form b(X) = b0 . Setze q := a0 b−1 0 und r = 0. • Induktionsschritt: Sei n := deg a > 1 und m := deg b ≤ n. Wir nehmen an, die Behauptung sei bereits für alle Polynome a0 , b ∈ [X] mit deg a0 < n gezeigt und belegen die Behauptung für n. Nach Induktionsannahme existieren zu a0 , b ∈ K[X] mit deg a0 < n Polynome q 0 , r0 ∈ K[X] mit a0 = q 0 b + r0 und deg r0 < deg b. n−m und a0 := a − q 00 b. Man rechnet leicht nach, daß Setze q 00 := an b−1 m X deg(q 00 b) = n sowie die beiden Polynome q 00 b und a den gleichen führenden Koeffizienten an haben. Dieser hebt sich in der Differenz a0 = a − q 00 b weg, so dass deg a0 < n gilt. Auf dieses Polynom a0 wenden wir die Induktionsannahme an. Es gibt Polynome q 0 , r0 ∈ K[X] mit a0 = q 0 b + r und deg r0 < deg b. Es gilt a = q 00 b + a0 = q 00 b + q 0 b + r = (q 00 + q 0 )b + r0 wobei deg r0 < deg b. Mit q := q 00 + q 0 und r := r0 erhalten wir die Behauptung. Es ist noch die Eindeutigkeit nachzuweisen. Seien q, r, q 0 , r0 ∈ K[X] Polynome mit a = qb + r a = q 0 b + r0 und deg r < deg b und deg r0 < deg b. Wir zeigen q = q 0 und r = r0 . Aus 0 = a − a = qb + r − (q 0 b + r) erhält man: (q − q 0 )b = r − r0 . Wegen deg(r − r0 ) ≤ max{deg r, deg r0 } < deg b ist der Grad des Polynoms (q − q 0 )b kleiner als der des Polynoms b. Aus der Gradformel für Polynome deg(q − q 0 ) + deg(b) = deg((q − q 0 )b) < deg b ergibt sich deg(q − q 0 ) = −∞ oder äquivalent, daß q − q 0 das Nullpolynom ist. Also ist q = q 0 und r = a − qb = a − q 0 b = r0 . Betrachten wir ein Beispiel zur Division mit Rest: Beispiel 4.15. Wir wollen das Polynom X 5 durch X 2 − 1 über einem beliebigem Körper dividieren. X5 : (X 2 − 1) = (X 2 − 1) · (X 3 + X) + X 5 3 X −X X3 X3 − X X 50 4. Polynome Man kann zeigen, dass der Divisionrest von X k durch (X n − 1) gleich X k mod n ist. Allgemeiner ist der Divisionsrest eines Polynoms dividiert durch (X n − 1): m m X X i n pi X mod (X − 1) = pi X i mod n . i=0 i=0 Sei f ∈ K[X] ein nicht-konstantes Polynom, zum Beispiel X n − 1. Wie im Fall der ganzen Zahlen führt man für p, q ∈ K[X] Addition und Multiplikation verbunden mit einer Modulo-Reduktion durch: p +f q := (p + q) mod f p ·f q := (p · q) mod f Wie im Fall der ganzen Zahlen modulo n, die wir in Abschnitt 5 untersucht haben, kann man über die Restklassen modulo f einen Ring definieren. Den entstehenden Ring bezeichnet man als Faktorring und schreibt K[X]/(f ). Für geeignete Polynome ist dies sogar ein Körper, wie wir in Kapitel 15 ab Seite 191 sehen werden. Beispiel 4.16. Sei K = Z2 und f (X) := X 2 + X + 1. Da der Divisionsrest den Grad kleiner als deg(X 2 + X + 1) = 2 hat, besteht Z2 [X]/(f ) genau aus den Polynomen mit Grad maximal 1: 0, 1, X, X + 1. Für die Addition gilt (a + bX+) +f (a0 + b0 X) = (a + a0 ) + (b + b0 )X. Die Multiplikationstabelle sieht wie folgt aus: · 0 1 X X +1 0 1 X X +1 0 0 0 0 0 1 X X +1 0 X X +1 1 0 X +1 1 X Der Leser überzeuge sich, dass F4 := Z2 [X]/(f ) ein Körper mit vier Elementen ist. F4 hat den Unterkörper {0, 1}. Beispiel 4.17. Untersuchen wir zum Abschluß ein weiteres Beispiel, nämlich K = R und f (X) = X 2 + 1. Da der Divisionsrest den Grad kleiner als deg(X 2 + 1) = 2 hat, besteht R[X]/(f ) genau aus den Polynomen mit Grad maximal 1: R[X]/(X 2 + 1) = {a + bX | a, b ∈ R } . Für die Addition gilt (a + bX) +f (a0 + b0 X) = (a + a0 ) + (b + b0 )X und wegen X 2 mod f = −1 erhalten wir für das Produkt: (a + bX) ·f (a0 + b0 X) = (aa0 + ab0 X + a0 bX + bb0 X 2 ) mod f = (aa0 + ab0 X + a0 bX − bb0 ) mod f = aa0 − bb0 + (a0 b + ab0 )X 3. Nullstellen 51 Man kann nachrechnen, dass dies ein Körper ist (aufwendig!). Allerdings kennen wir diesen Körper bereits: Man überzeuge sich, dass die Abbildung ψ : C → R[X]/(X 2 + 1), a + ib 7→ a + bX einen Isomorphismus bildet, also ψ(x + y) = ψ(x) +f ψ(y) und ψ(x · y) = ψ(x) ·f ψ(y) erfüllt sowie bijektiv ist. Dann gilt R[X]/(X 2 + 1) ' C und es folgt, dass R[X]/(X 2 + 1) wie C ein Körper ist. 3. Nullstellen Wir wollen die Nullstellen von Polynomen untersuchen. Vor allem interessieren wir uns für Nullstellen von Polynomen p ∈ C[X] über dem Körper C und seinem Unterkörper R. Pn i Def inition 4.18 (Nullstelle). Sei p(X) = i=0 pi X ∈ K[X] ein Polynom über 0 einem Körper K und K ⊆ K ein Unterkörper von K. Ein Element λ ∈ K0 heißt P n Nullstelle oder Wurzel von p (über K0 ), falls i=0 pi λi = 0. Ein konstantes Polynom p(X) = p0 hat nur dann eine Nullstelle, wenn es das Nullpolynom ist. Falls ein Polynom eine Nullstelle λ hat, kann man den Linearfaktor (X −λ) abspalten: Satz 4.19 (Satz von Ruffini). Sei p ∈ K[X] ein Polynom (ungleich dem Nullpolynom) mit Nullstelle λ ∈ K. Dann gibt es ein Polynom q ∈ K[X] mit p = (X − λ)q und deg q = deg p − 1 Beweis. Division mit Rest von p durch (X − λ) ergibt: p = q(X − λ) + r mit deg r < 1. Der Rest r ist ein konstantes Polynom. Der Einsetzungshomomorphismus liefert mit 0 = ϕλ (p) = ϕλ (q) · ϕλ (X − λ) +ϕλ (r) = ϕλ (r), | {z } =0 dass ϕλ (r) = 0 und das Polynom r eine Nullstelle hat. Also ist r das Nullpolynom. Es ist möglich, dass man den Linearfaktor (X − λ) mehrfach abspalten kann. Def inition 4.20 (Vielfachheit einer Nullstelle). Sei λ ∈ K die Nullstelle eines Polynoms p ∈ K[X] ungleich dem Nullpolynom. Die größte Zahl ν ≥ 1 mit p = (X − λ)ν q und q ∈ K[X] heißt die Vielfachheit der Nullstelle λ. Die Anzahl der Nullstellen und ihre Mehrfachheiten läßt sich durch den Grad des Polynoms nach oben abschätzen: 52 4. Polynome Lemma 4.21. Sei p ∈ K[X] ein Polynom über einem Körper K, das ungleich dem Nullpolynom ist. Seien λ1 , . . . , λm ∈ K Nullstellen von p und ν1 , . . . , νm ihre Vielfachheiten. Dann gilt m X νi ≤ deg p. i=1 Insbesondere ist die Anzahl der Nullstellen maximal deg p. Beweis. Wir wenden iterativ Satz 4.19 an und erhalten m Y p= (X − λi )νi q i=1 mit q ∈ K[X] ungleich dem Nullpolynom (formal durch einen einfachen Induktionsbeweis über die Anzahl der Nullstellen, wobei vielfache Nullstellen entsprechend mehrfach gezählt werden, zu belegen). Aus der Gradformel erhalten wir: deg p = m X νi + deg q i=1 Mit deg q ≥ 0 folgt die Behauptung. Wir schließen weiter: Pn i Korollar 4.22. Sei p(X) = i=0 pi X ein Polynom über einem Körper K. Das Polynom p ist genau dann das Nullploynom, wenn es mehr als n Nullstellen hat. Beweis. Falls p das Nullpolynom ist, gilt die Aussage offenbar. Für p ungleich dem Nullpolynom hat es nach Lemma 4.21 maximal deg p ≤ n Nullstellen. Das Polynom p(X) := 2X 2 + 2 ∈ C[X] hat über R keine Nullstellen, über den komplexen Zahlen C allerdings die beiden Nullstellen ±i. Man sagt, es zerfällt über C in Linearfaktoren: 2X 2 + 2 = 2(X + i)(X − i) Wir wollen mit Hilfe des Fundamentalsatzes der Algebra, den C.F. Gauß3 erstmals 1799 in seiner Dissertation bewies, zeigen, dass jedes nicht-konstante Polynom in C[X] in Linearfaktoren zerfällt. Fakt 4.23 (Fundamentalsatz der Algebra). Jedes nicht-konstante Polynom p ∈ C[X] hat mindestens eine Nullstelle über C. Es gibt zahlreiche Beweise (u.a. hat auch Gauß später weitere Beweise gegeben), die allerdings Hilfsmittel aus der Analysis verwenden. Wir verwenden den Fundamentalsatz, um nachstehendes Resultat zu folgern: Lemma 4.24. Jedes Polynom p ∈ C[X] ungleich dem Nullpolynom zerfällt in Linearfaktoren, d.h. es gibt a, λ1 , . . . , λn ∈ C mit a 6= 0, n = deg p und p(X) = a · (X − λ1 )(X − λ2 ) · · · (X − λn ). 3Carl Friedrich Gauß, 1777–1855, siehe Fußnote auf Seite 4 3. Nullstellen 53 Beweis. Wir zeigen die Aussage durch Induktion über n = deg p. • Induktionsverankerung für n = 0. Das Polynom hat die Form p(X) = p0 . Mit a := p0 6= 0 folgt die Behauptung. • Induktionsschluß von n − 1 auf n. Nach Induktionsannahme zerfallen alle Polynome q ∈ C[X], deren Grad gleich n − 1 ≥ 0 ist, in Linearfaktoren. Gemäß Fundamentalsatz der Algebra hat das Polynom p(X) ∈ C[X] eine Nullstelle λ1 ∈ C. Aus Satz 4.19 erhalten wir: p(X) = (X − λ1 )q(X) mit λ1 ∈ C, q(X) ∈ C[X] und deg q = n − 1. Nach Induktionsannahme zerfällt q(X) in Linearfaktoren, d.h. es gibt a, λ2 , λ3 , . . . , λn ∈ C mit q(X) = a · (X − λ2 )(X − λ3 ) · · · (X − λn ). Mit p(X) = (X − λ1 )q(X) folgt die Behauptung. Eine Zerlegung in Linearfaktoren ist über R im allgemeinen nicht möglich, wie das Beispiel des Polynoms 2X 2 +2 zeigt. Aber wir werden sehen, dass man jedes Polynom p(X) ∈ R[X] als Produkt von Linearfaktoren und Polynomen zweiten Grades in R[X] schreiben kann. Lemma 4.25. Sei p ∈ R[X] ungleich dem Nullpolynom und λ ∈ C eine Nullstelle von p. Dann ist auch die konjugierte komplexe Zahl4 λ eine Nullstelle von p und insbesondere stimmen die Vielfachheiten der Nullstelle λ und λ überein. P Beweis. Sei p(X) := ni=0 pi X i . Wegen pi = pi folgt aus den Homomorphie-Eigenschaften von x 7→ x 0=0= n X pi λ i = i=0 n X pi λ i = i=0 n X pi λ i , i=0 so dass λ ebenfalls eine Nullstelle ist. Für die Aussage der Vielfachheit bezeichne ν(p, x) die Vielfachheit der Nullstelle x des Polynoms p. Im Fall, dass die vorgegebene Nullstelle λ reell ist, also λ ∈ R, gilt λ = λ und ν(p, λ) = ν(p, λ ). Wir zeigen durch Induktion über ν(p, λ), dass für λ ∈ C \ R gilt ν(p, λ) ≤ ν(p, λ ). (9) • Induktionsverankerung ν(p, λ) = 1: Weil mit λ auch λ eine Nullstelle ist, gilt ν(p, λ) = 1 ≤ ν(p, λ ). • Induktionsschluß von ν(p, λ) − 1 auf ν(p, λ): Wir nehmen an, dass für alle Polynome p0 mit Nullstelle λ und ν(p0 , λ) = ν(p, λ) − 1 gilt: ν(p0 , λ) ≤ ν(p0 , λ ). (10) 4Zur Erinnerung: a + ib = a − ib. Die Abbildung x 7→ x ist ein Automorphismus des Körpers C mit x = x. Es gilt y = y gdw. y ∈ R. 54 4. Polynome Da mit λ ebenfalls λ 6= λ eine Nullstelle ist, können wir gemäß Satz 4.19 die beiden Linearfaktoren (X − λ) und (X − λ ) abspalten: p = (X − λ)(X − λ ) · p0 Weil ν(p0 , λ) = ν(p, λ) − 1 ist, wenden wir die Induktionsannahme (10) an und erhalten mit ν(p0 , λ ) = ν(p, λ ) − 1 die Behauptung (9). Die Abschätzung ν(p, λ) ≥ ν(p, λ) folgt bereits aus Ungleichung (9), man setze λ ← λ und beachte λ = λ. Damit ist die Gleichheit bewiesen. Sei λ := a + ib ∈ C \ R und λ = a − ib die konjugiert komplexe Zahl (beachte λ 6= λ). Das normierte Polynom q(X) := (X − λ)(X − λ ) = (X − a − ib)(X − a + ib) = X 2 − aX − ibX − aX + a2 + iab + ibX − iab − i2 b2 = X 2 − 2aX + a2 + b2 hat zwar reelle Koeffizienten, aber keine Nullstelle über R (Warum?). Nach Lemma 4.24 zerfällt jedes Polynom p(X) mit reellen Koeffizienten über C in Linearfaktoren. Wir fassen die Linearfaktoren (X − λ) und (X − λ ) der echt komplexen Nullstellen λ des Polynoms p(X) zusammen, nach Lemma 4.25 treten sie jeweils paarweise auf: Satz 4.26. Jedes Polynom p ∈ R[X] ungleich dem Nullpolynom hat eine Zerlegung p(X) = a(X − λ1 )(X − λ2 ) . . . (X − λr ) · q1 (X) · q2 (X) · · · qc (X) mit a, λ1 , λ2 , . . . , λr ∈ R, a 6= 0, und normierten Polynomen q1 (X), . . . , qc (X) ∈ R[X] vom Grad 2 ohne Nullstelle über R. Insbesondere hat das Polynom p genau r Nullstellen über R und es gilt deg p = r + 2c. Aus der Gleichung deg p = r + 2c erhalten wir für Polynome p mit ungeradem Grad, dass r ebenfalls ungerade ist. Korollar 4.27. Jedes Polynom p ∈ R[X] mit ungeradem Grad hat mindestens eine Nullstelle über R. Der Fundamentalsatz der Algebra ist eine reine Existenzaussage, aus dem Satz läßt sich kein Verfahren zur Bestimmung von Nullstellen ableiten. Für ein Polynom aX 2 + bX + c ∈ C[X] zweiten Grades erhalten wir die Nullstellen λ1 , λ2 aus der seit über 2000 Jahren bekannten pq-Formel √ −b ± b2 − 4ac λ1,2 = . 2a Etwas kompliziertere Formeln dieser Art gibt es auch für Polynome vom Grad 3 und 4. Die Formel für Polynome dritten Grades veröffentlichte 1545 G. Cardano5, allerdings wurde sie bereits um 1515 von S. del Ferro (1465–1526) oder N. Fontana6 gefunden, aber nicht publiziert. Cardanos Schüler L. Ferrari (1522–1565) führte 5Geronimo Cardano, 1501–1576, siehe Fußnote auf Seite 16. 6auch Tartaglia, d.h. Stotterer, genannt. 4. Interpolation 55 um 1540 den Fall eines Polynoms vierten Grades auf die Nullstellenbestimmung eines Polynoms dritten Grades zurück. Für Polynome ab Grad 5 hat 1826 N.H. Abel7 gezeigt, dass es solche allgemeinen Formeln aus algebraischen Gründen nicht geben kann. Für praktische Anwendung kennt man in der angewandten Mathematik bzw. Numerik aber effiziente Verfahren zur Bestimmung oder Approximation von Nullstellen von Polynomen. 4. Interpolation Wir haben zu einem Polynom p(X) ∈ K[X]n die Polynomfunktion x 7→ p(x) kennengelernt. In diesem Abschnitt suchen wir zu gegebenen Punkten (ai , bi ), i = 0, . . . , n, ein Polynom p ∈ K[X]n mit p(ai ) = bi für alle i. Die Motivation für diese Fragestellung, dem Interpolationsproblem, ist vielfältig. Häufig sollen gemessene Daten geeignet verbunden werden. In der Mathematik ist Interpolation ein Hilfsmittel für die Approximation von Funktionen. In der Informatik kennt man ein Verfahren basierend auf der Interpolation, um zwei Polynome schneller als mit der Schulmethode zu multiplizieren. Def inition 4.28 (Interpolationsproblem). Sei K ein Körper. Das Interpolationsproblem lautet: • Gegeben n + 1 Paare (ai , bi ) ∈ K2 , i = 0, . . . , n, mit paarweise verschiedene ai . • Finde ein Polynom p ∈ K[X]n mit p(ai ) = bi für i = 0, . . . , n. Die Werte a0 , . . . , an heißen Stützstellen, die eindeutig bestimmte Lösung p(X) nennt man Interpolationspolynom. Bevor wir die Existenz des Interpolationspolynoms zeigen, beweisen wir, dass, wenn es existiert, in diesem Fall eindeutig bestimmt ist: Lemma 4.29. Es gibt höchstens ein Interpolationspolynom. Beweis. Seien p, q ∈ K[X]n Interpolationspolynome. Wir zeigen, dass p = q oder äquivalent d := p − q das Nullpolynom ist. Nach Lemma 4.8 ist der Grad des Differenzpolynoms d durch n beschränkt: deg d = deg(p − q) ≤ max{p, q} ≤ n. P Das Differenzpolynom d = ni=0 di X i hat mindestens n + 1 Nullstellen, denn beide Polynome p und q nehmen an den Stützstellen a0 , . . . , an jeweils den gleichen Wert an: d(ai ) = p(ai ) − q(ai ) = bi − bi = 0 für i = 0, . . . , n. Nach Korollar 4.22 ist das Polynom d das Nullpolynom. 7Niels Hendrik Abel, 1802–1829, siehe Fußnote auf Seite 21. 56 4. Polynome Um zu zeigen, dass das Interpolationspolynom existiert und wie P man es berechnen kann, fassen wir Koeffizienten des gesuchten Polynoms p(X) = ni=0 pi X i als Unbekannte auf. Wir suchen p0 , . . . , pn ∈ K mit p(ai ) = n X pj aji = bi für i = 0, . . . , n. j=0 Dies ist ein lineares Gleichungsystem in 1 a0 a20 · · · 1 a1 a2 · · · 1 .. .. .. . . . | 1 an a2n · · · {z den n + 1 Variablen p0 , . . . , pn : an0 p0 b0 n a1 p1 b1 .. · .. = .. . . . . ann =:Vn+1 (a0 ,a1 ,...,an ) pn (11) bn } Der Rang der (n+1)×(n+1)-Koeffizientenmatrix Vn+1 (a0 , . . . , an ) ist maximal n+1, so dass das lineare Gleichungsystem (11) lösbar ist. Da höchstens ein Interpolationspolynom, d.h. eine Lösung des linearen Gleichungsystems, existiert, ist der Rang der Koeffizientenmatrix gleich n + 1. Satz 4.30 (Interpolationspolynom). Sei K ein Körper. Zu n+1 Paaren (ai , bi ) ∈ K2 , i = 0, . . . , n, mit paarweise verschiedenen ai gibt es genau ein Interpolationspolynom p ∈ K[X]n , so dass p(ai ) = bi für i = 0, . . . , n. Eine Matrix der Form Vn+1 (a0 , . . . , an ) heißt Vandermonde-Matrix. Falls die Werte a0 , . . . , an paarweise verschieden sind, hat die Matrix vollen Rang, denn zum linearen Gleichungssystem (11) existiert genau eine Lösung. Sollten zwei Werte ai , aj mit i 6= j identisch sein, sind zwei Zeilen der Koeffizientenmatrix gleich und die Matrix hat nicht vollen Rang. Korollar 4.31 (Vandermonde-Matrix). Sei K ein Körper und a0 , . . . , an−1 ∈ K. Die n × n-Vandermonde-Matrix 1 a0 a20 · · · an−1 0 1 a1 a21 · · · an−1 1 Vn (a0 , . . . , an−1 ) = . . . . .. .. .. .. n−1 2 1 an−1 an−1 · · · an−1 hat genau dann vollen Rang, wenn a0 , . . . , an−1 paarweise verschieden sind. Das Interpolationspolynom können wir mit dem Gauß-Algorithmus bestimmen. Überlicherweise verwendet man die Lagrange’sche Form des Interpolationspolynoms. Zu gegebenen Stützstellen a0 , . . . , an sei n Y X − aj `i (X) := ai − aj j=0 j6=i für i = 0, . . . , n. 4. Interpolation 57 Diese Polynome `i (X) ∈ K[X]n heißen Lagrange-Koeffizienten oder auch LagrangePolynome. Man rechnet leicht folgende charakteristische Eigenschaft der LagrangeKoeffizienten nach: ( 1 falls i = k `i (ak ) = δi,k = 0 falls i 6= k. Das gesuchte Interpolationspolynom lautet in der Lagrange’schen Form n X L(X) := `i (X) · bi . i=0 Offenbar ist L(ai ) = bi und wegen deg `i (X) ≤ n gilt L(X) ∈ K[X]n . Beispiel 4.32. Wir suchen ein Polynom p ∈ R[X]2 mit p(1) = 3, p(2) = 5 und p(3) = 10. Die Lagrange-Koeffizienten lauten (X − 2)(X − 3) = 12 (X 2 − 5X + 6) (1 − 2)(1 − 3) (X − 1)(X − 3) `1 (X) = = −(X 2 − 4X + 3) (2 − 1)(2 − 3) (X − 1)(X − 2) `2 (X) = = 12 (X 2 − 3X + 2). (3 − 1)(3 − 2) Das gesuchte Polynom lautet `0 (X) = p(X) = 3 · `0 (X) + 5 · `1 (X) + 10 · `2 (X) = 32 X 2 − 52 X + 4. Man überzeuge sich durch Nachrechnen, dass die Lösung korrekt ist. Kapitel 5 Der Rang von Matrizen Unser Ziel ist die Entwicklung eines Kriteriums für die Lösbarkeit von inhomogenen linearen Gleichungssystemen sowie für die Bestimmung der Dimension des Lösungsraums des zugehörigen homogenen linearen Gleichungssystems. 1. Zeilenrang und Spaltenrang Die Spaltenvektoren einer Matrix erzeugen einen Untervektorraum, den sogenannten Spaltenraum der Matrix: Def inition 5.1 (Spaltenraum, Spaltenrang). Sei A = (A1 , . . . , An ) ∈ Mm,n (K) Matrix mit den Spalten A1 , . . . , An ∈ Km . Dann nennen wir SR(A) := span(A1 , . . . , An ) den Spaltenraum von A. Die Dimension des Spaltenraums dim SR(A) nennen wir den Spaltenrang von A. Nach Lemma 3.22 ist die Dimension des Spaltenraums gleich der maximalen Zahl linear unabhängiger Spalten einer Matrix. Für die Zeilen einer Matrix definiert man analog Zeilenraum und Zeilenrang: Def inition 5.2 (Zeilenraum, Zeilenrang). Sei A = (z1 , . . . , zm )T ∈ Mm,n (K) Matrix T ∈M mit Zeilen z1T , . . . , zm 1,n (K). Dann nennen wir ZR(A) := span(z1 , . . . , zm ) den Zeilenraum von A. Die Dimension des Zeilenraums dim ZR(A) heißt Zeilenrang von A. Auch in diesem Fall gilt wegen Lemma 3.22, dass die Dimension des Zeilenraums gleich der maximalen Zahl linear unabhängiger Zeilen ist. Spaltenraum und Zeilenraum einer Matrix sind im allgemeinen nicht gleich. Beide Vektorräume haben aber die gleiche Dimension: 59 60 5. Der Rang von Matrizen Satz 5.3. Zeilenrang und Spaltenrang einer Matrix sind stets gleich. Beweis. Wir führen einen direkten Beweis mit Hilfe des Gauß-Verfahrens: Sei A ∈ Mm,n (K) Matrix. Dann gibt es nach Übungsaufgabe 4.2 • Permutationsmatrizen P ∈ Mm,m (K) und P 0 ∈ Mn,n (K), • T ∈ UDm , T 0 ∈ ODn , • und D = (dij ) ∈ Mm,n (K) mit d11 · · · drr 6= 0 und dij = 0 sonst, so dass gilt: P AP 0 = T DT 0 . Dabei ist T −1 die Zeilentransformationen im Gauß-Verfahren zu P AP 0 . DT 0 ist in Treppenform mit r Stufen. Die Matrizen T und T 0 sind nicht nur invertierbar, sondern es gilt sogar t11 = · · · = tmm = 1 und t011 = · · · = t0nn = 1. O.B.d.A. sei P = Im und P 0 = In , denn Zeilen- oder Spaltenvertauschungen ändern weder den Zeilen- noch den Spaltenrang. Für die Diagonalmatrix D gilt offenbar dim ZR(D) = dim SR(D) = r. Wir zeigen, dass elementare Zeilen- und Spaltentransformationen weder den Zeilennoch den Spaltenrang ändern. Die Behauptung folgt dann aus: dim ZR(A) = dim ZR(D) = dim SR(D) = dim SR(A). T ∈M Seien A1 , . . . , An ∈ Km die Spalten und z1T , . . . , zm 1,n (K) die Zeilen von A. Wir betrachten die Zeilentransformation A 7→ Tij (λ)A, die das λ-fache der j-ten Zeile zur i-ten Zeile von A addiert: A 7→ Ti,j (λ) bewirkt zi0 = zi + λzj . Wir zeigen, dass sich der Zeilenraum nicht ändert und die Dimension des Spaltenraums gleichbleibt: a) Es gilt ZR(A) = ZR(Tij (λ)A), denn • wegen zi0 = zi + λzj ist ZR(Tij (λ)A) ⊆ ZR(A) und • wegen zi = zi0 − λzj ist ZR(A) ⊆ ZR(Tij (λ)A). b) Es gilt dim SR(A) = dim SR(Tij (λ)A), denn die Multiplikation mit Tij (λ) liefert einen Vektorraum-Isomorphismus ψ : SR(A) → SR(A), S 7→ Tij (λ)S. Für jeden Vektorraum-Isomorphismus ψ gilt nach Satz 3.18 auf Seite 35, dass A1 , . . . , An genau dann linear unabhängig sind, wenn ψ(A1 ), . . . , ψ(An )linear unabhängig sind. Also ist dim SR(A) = dim SR(Tij (λA). Man nutzt die Gleichheit von Spaltenrang und Zeilenrang und spricht vom Rang einer Matrix: Def inition 5.4 (Rang). Sei A ∈ Mm,n (K). Dann heißt rang(A) := dim SR(A) = dim ZR(A) der Rang von A. Der Rang ist eine Invariante bei der Multiplikation mit invertierbaren Matrizen: 2. Rang und lineare Gleichungssysteme 61 Satz 5.5. Seien A ∈ Mm,n (K) und B ∈ Mm,m (K), B 0 ∈ Mn,n (K) invertierbare Matrizen. Dann gilt: rang A = rang(BA) = rang(AB 0 ). Beweis. Der Beweis rang A = rang(BA) erfolgt direkt über Isomorphie von Vektorräumen: Die Abbildung ψ : SR(A) → SR(BA), x 7→ Bx ∼ SR(BA). Dahe sind insbeist ein Vektorraum-Isomorphismus und somit gilt SR(A) = sondere die Dimensionen beider Vektorräume gleich, und es gilt rang(A) = rang(BA). Der Beweis von rang(A) = rang(AB 0 ) führt man analog. 2. Rang und lineare Gleichungssysteme Inhomogene lineare Gleichungssysteme Ax = b haben genau dann eine Lösung, wenn der Vektor b von den Spalten von A linear abhängig ist. Hieraus folgt auch, dass homogene lineare Gleichungssysteme stets eine Lösung besitzen, denn der Nullvektor ist linear abhängig. Wir formulieren dieses Kriterium mittels der Begriffe Spaltenraum und Spaltenrang: Satz 5.6 (Lösbarkeitskriterium für lineare Gleichungssysteme). Sei (A, b) ∈ Mm,n+1 (K) erweiterte Matrix des linearen Gleichungssystems Ax = b. Dann gilt a) Lös(A, b) 6= ∅ ⇐⇒ SR(A) = SR(A, b). b) Lös(A, b) = ∅ ⇐⇒ dim SR(A, b) = dim SR(A) + 1. Beweis. Sei A = (A1 , . . . , An ) ∈ Mm,n (K) Matrix mit Spalten A1 , . . . , An ∈ Km und b ∈ Km . Wir zeigen beide Behauptungen direkt: a) Lös(A, b) 6= ∅ ⇐⇒ SR(A) = SR(A, b) Da genau dann Lös(A, b) 6= ∅, wenn ein es ein x ∈ Kn gibt mit Ax = b, gilt: Lös(A, b) 6= ∅ ⇐⇒ ∃x : n X Ai xi = b. i=1 Also: Lös(A, b) 6= ∅ ⇐⇒ b ∈ span(A1 , . . . , An ) = SR(A). Weil b ∈ SR(A) äquivalent zu SR(A) = SR(A, b) ist, folgt die Behauptung: Lös(A, b) 6= ∅ ⇐⇒ SR(A) = SR(A, b). b) Lös(A, b) = ∅ ⇐⇒ dim SR(A, b) = dim SR(A) + 1 Wegen Teil a) gilt Lös(A, b) = ∅ genau dann, wenn SR(A) 6= SR(A, b). Aus SR(A) 6= SR(A, b) ⇐⇒ span(A1 , . . . , An ) 6= span(A1 , . . . , An , b), | {z } | {z } =SR(A) =SR(A,b) folgt mit dim SR(A) ≤ dim SR(A, b) ≤ dim SR(A) + 1: Lös(A, b) = ∅ ⇐⇒ dim SR(A, b) = dim SR(A) + 1. Dies war zu zeigen. 62 5. Der Rang von Matrizen Der Rang einer Matrix gibt uns ein Kriterium für die Lösbarkeit des entsprechenden homogenen linearen Gleichungssystems: Satz 5.7. Sei A ∈ Mm,n (K). Für das zugehörige homogene lineare Gleichungssystem Ax = 0 gilt dim Lös(A, 0) = n − rang(A). Beweis. Sei A ∈ Mm,n (K). Nach Übungsaufgabe 4.2 gibt es • Permutationsmatrizen P ∈ Mm,m (K) und P 0 ∈ Mn,n (K), • T ∈ UDm , T 0 ∈ ODn und • D = (dij ) ∈ Mm,n (K) mit d11 · · · drr 6= 0 und dij = 0 sonst, so dass gilt: P AP 0 = T DT 0 . O.B.d.A. sei P = Im und P 0 = In . Für die Lösungsmenge des zur Diagonalmatrix D gehörenden homogenen linearen Gleichunggsystem Dx = 0 gilt Lös(D, 0) = span(er+1 , . . . , en ), denn wegen d11 x1 = 0, . . . , drr xr = 0 und d11 · · · drr 6= 0 gilt x1 = . . . = xr = 0 und xr+1 , . . . , xn sind frei wählbar. Also ist dim Lös(D, 0) = n − r = n − rang D. Es bleibt zu zeigen, dass die Multiplikation mit den Elementarmatrizen T und T 0 weder die Dimension des Lösungsraums noch den Rang der Matrix verändert. Wir zeigen zuerst, dass Lös(T DT 0 , 0) = T 0 −1 Lös(D, 0). Aufgrund von Bemerkung 1.13 auf Seite 12 und Satz 5.6 auf Seite 61 sind T und T 0 invertierbar. Es gilt: x ∈ Lös(T DT 0 , 0) ⇐⇒ T DT 0 x = 0. Multiplikation der Gleichung T DT 0 x = 0 mit T liefert: x ∈ Lös(T DT 0 , 0) ⇐⇒ DT 0 x = 0, d.h. x ∈ Lös(T DT 0 , 0) genau dann, wenn T 0 x ∈ Lös(D, 0): x ∈ Lös(T DT 0 , 0) Also ist Lös(T DT 0 , 0) = T 0 −1 ⇐⇒ x ∈ T0 −1 Lös(D, 0). Lös(D, 0) und damit gilt dim Lös(T DT 0 , 0) = dim(T 0 Aus Lemma 5.5 folgt rang D = rang(T DT 0 ). −1 Lös(D, 0)). Kapitel 6 Lineare Abbildungen Wir nennen eine Abbildung zwischen zwei algebraischen Strukturen Homomorphismus, wenn die Funktion mit der bzw. den Verknüpfungen der Struktur verträglich ist. Für Vektorräume heißen solche Funktionen lineare Abbildungen. 1. Eigenschaften Seien U und V Vektorräume über einem Körper K. Ein Homomorphismus f : U → V , also eine Abbildung, bei der für alle u1 , u2 ∈ U und λ ∈ K gilt Additivität: f (u1 + u2 ) = f (u1 ) + f (u2 ) Homogenität: f (λ · u1 ) = λ · f (u1 ) (12) heißt lineare Abbildung: Def inition 6.1 (Lineare Abbildung). Seien U und V Vektorräume über einem Körper K. Eine lineare Abbildung ist ein Homomorphismus f : U → V . Die Menge aller linearen Abbildungen von U nach V bezeichnen wir mit Lin(U, V ) := {f : U → V | f ist Homomorphismus } . (13) Die Eigenschaften (12) einer linearen Abbildung lassen sich zu einer Gleichung zusammenfassen. Eine Funktion f : U → V ist genau dann eine lineare Abbildung, wenn für u1 , u2 ∈ U und λ1 , λ2 ∈ K gilt: f (λ1 u1 + λ2 u2 ) = λ1 · f (u1 ) + λ2 · f (u2 ). Man überlegt sich leicht, dass mit f, g ∈ Lin(U, V ) auch h := f + g mit h(u) = f (u) + g(u) eine lineare Abbildung ist, ebenso k := λf mit k(u) = λ · f (u) für λ ∈ K. Die Menge der linearen Abbildungen Lin(U, V ) ist bezüglich Addition und skalarer Multiplikation abgeschlossen: Satz 6.2. Seien U und V Vektorräume über einem Körper K. Dann ist Lin(U, V ) zusammen mit der oben angegebenen Addition und skalaren Multiplikation ein KVektorraum. 63 64 6. Lineare Abbildungen Die Hintereinanderausführung (Konkatenation) h := f ◦g ∈ Lin(U, W ) mit h(u) = f (g(u)) zwei linearer Abbildungen f ∈ Lin(V, W ) und g ∈ Lin(U, V ) ist ebenfalls eine lineare Abbildung. Denn für u1 , u2 ∈ U , λ1 , λ2 ∈ K und v1 := g(u1 ), v2 := g(u2 ) gilt: h(λ1 u1 + λ2 u2 ) = f g(λ1 u1 + λ2 u2 ) = f λ1 · g(u1 ) + λ2 · g(u2 ) = f λ1 v1 + λ2 v2 = λ1 · f (v1 ) + λ2 · f (v2 ) = λ1 · f (g(u1 )) + λ2 · f (g(v2 )) = λ1 · h(u1 ) + λ2 · h(u2 ). Beschränken wir uns auf den Fall U = V = W , also Endomorphismen, so ist die Menge der linearen Abbildungen mit den beiden Verknüpfungen Addition und Konkatenation ein Unterring aller Abbildungen f : U → U : Satz 6.3. Sei K ein Körper und U ein K-Vektorraum. Die Menge aller linearen Abbildungen Lin(U, U ) mit Addition +“ und Konkatenation ◦“ ist ein Ring. ” ” Wie bei Abbildungen üblich bezeichnet man mit bild f den Bildbereich der Funktion f ∈ Lin(U, V ): bild f := f (U ) = {f (u) | u ∈ U } ⊆ V. bild f ist ein Untervektorraum von V . Der Kern ker f der Abbildung f ∈ Lin(U, V ) umfasst die Vektoren u ∈ U , welche auf die Null abgebildet werden: ker f := f −1 (0) = {u ∈ U | f (u) = 0 } ⊆ U. ker f ist ein Untervektorraum von U Aufgrund der Linearität ist f (0) = 0, so dass der Nullvektor stets im Kern einer linearen Abbildung liegt. Bei einem trivalen Kern, d.h. ker f = {0}, ist die Abbildung injektiv. Ein surjektive Abbildung f hat genau dann trivalen Kern, wenn f ein Isomorphismus ist. Für die Dimension der beiden Untervektorräume ker f und bild f einer linearen Abbildung f ∈ Lin(U, V ) gilt folgende Relation, die wir in Übungsaufgabe 8.1 beweisen: Satz 6.4 (Dimensionsformel für lineare Abbildungen). Seien U und V Vektorräume über einem Körper K sowie f ∈ Lin(U, V ) eine lineare Abbildung. Dann gilt: dim(ker f ) + dim(bild f ) = dim U. Der folgende Satz trifft auch auf unendlich dimensionale Vektorräume zu, wenngleich wir uns im Beweis auf den in der Vorlesung betrachteten Fall von Vektorräumen endlicher Dimension beschränken. Satz 6.5. Seien U und V Vektorräume über einem Körper K und a1 , . . . , an eine Basis von U . Eine lineare Abildung f ∈ Lin(U, V ) ist genau dann ein Isomorphismus, wenn die Bilder f (a1 ), . . . , f (an ) der Basisvektoren von U eine Basis von V bilden. Beweis. Wir zeigen beide Richtungen. Sei f ein Isomorphismus. Es gilt: span {f (a1 ), . . . , f (an )} ⊆ bild f ⊆ V. (14) 2. Darstellende Matrix 65 Da f bijektiv ist, existiert zu jedem v ∈ V ein Vektor u := n X λi ai ∈ U mit v = f (u) = f i=1 n X λi ai ! = i=1 n X λi f (ai ). i=1 In Verbindung mit den Inklusionen (14) gilt V = span {f (a1 ), . . . , f (an )} ⊆ bild f ⊆ V. Da V die Dimension n hat, bilden f (a1 ), . . . , f (an ) eine Basis von V . Umgekehrt, sei f (a1 ), . . . , f (an ) eine Basis von V . Dann ist dim U = dim V . Aus V = span {f (a1 ), . . . , f (an )} ⊆ bild f ⊆ V folgt dim(bild f ) = dim V = dim U , d.h. f ist surjektiv. Nach Übungsaufgabe 8.1 ist f ein Isomorphismus. Die Dimension des Bildbereiches nennt man den Rang einer linearen Abbildung: Def inition 6.6 (Rang einer Abbildung). Seien U und V Vektorräume über einem Körper K und f : U → V eine lineare Abbildung. Dann heißt rang f := dim(bild f ) der Rang von f . Den Begriff Rang“ haben wir zuvor in Kapitel 5 für Matrizen defininert. Wie ” wir in Abschnitt 2 in diesem Kapitel und Übungsaufgabe 8.2 zeigen werden, kann jeder Abbildung f ∈ Lin(U, V ) eine eindeutig bestimmte Matrix F mit f (x) = F x zugeordnet werden, wobei der Rang der Abbildung f mit dem Rang der Matrix F übereinstimmt. Um eine lineare Abbildung f : U → V anzugeben, genügt es, die Bilder der Basisvektoren von U zu spezifizieren. Sei a1 , . . . , an eine Basis des Vektorraums U . P Für das Bild eines Vektors u = ni=1 λi ai ∈ U erhalten wir aus den HomomorphieEigenschaften der linearen Abbildung: ! n n n X X X f (u) = f λi ai = f (λi ai ) = λi f (ai ). i=1 i=1 i=1 Umgekehrt sind zwei lineare Abbildungen f, g : U → V genau dann identisch, wenn die Bilder der Basisvektoren jeweils übereinstimmen. 2. Darstellende Matrix Wir zeigen in diesem Abschnitt, dass man zu einen Körper K die Menge der Matrizen Mm,n (K) als die Menge der linearen Abbildungen Lin(Kn , Km ) interpretieren kann. Zu einer Matrix A ∈ Mm,n (K) ist durch x 7→ Ax eine lineare Abbildung gegeben, denn es gilt A(x + y) = Ax + Ay und A(λx) = λAx für x, y ∈ Kn und λ ∈ K: Lemma 6.7. Sei K ein Körper. Dann ist zu jeder Matrix A ∈ Mm,n (K) die Funktion φA : Kn → Km , eine lineare Abbildung. x 7→ Ax 66 6. Lineare Abbildungen Umgekehrt kann jede lineare Abbildung f : Kn → Km durch eine eindeutig bestimmte Matrix F ∈ Mm,n (K) beschrieben werden, also f (x) = F x. Diese Matrix F wollen wir im folgenden herleiten. Seien e1 , . . . , en die kanonischen Einheitsvektoren. Die Abbildung f ist eindeutig durch die Bilder der Einheitsvektoren gegeben, denn P für x = ni=1 xi ei gilt: ! n n n X X X f (x) = f xi ei = f (xi ei ) = xi · f (ei ). i=1 i=1 i=1 Um diese Darstellung in Matrix-Vektor-Schreibweise f (x) = F x zu formulieren, wähle als Spalten die Bilder der Einheitsvektoren: F := f (e1 ) f (e2 ) · · · f (en ) ∈ Mm,n (K). P Bezeichnen wir die Spaltenvektoren mit fi := f (ei ), gilt für x = ni=1 xi ei ∈ Kn : ! n n n X X X Fx = xi fi = xi f (ei ) = f xi ei = f (x) i=1 i=1 i=1 Diese Konstruktion fassen wir mit folgendem Merksatz zusammen: Die Spalten sind die Bilder der Einheitsvektoren. Zwei lineare Abbildungen genau dann überein, wenn die Bilder der Einheitsvektoren identisch sind. Weil diese die Spaltenvektoren sind, ist die Matrix zu einer linearen Abbildung eindeutig bestimmt. Korollar 6.8. Sei K ein Körper. Die K-Vektorräume Lin(Kn , Km ) und Mm,n (K) sind isomorph. Beweis. Wir zeigen, dass die Abbildung ϕ : Lin(Kn , Km ) → Mm,n (K), f 7→ f (ei ) 1≤i≤n ∈ Mm,n (K) ein Isomorphismus ist. Die Abbildung ϕ ist injektiv, denn gilt ϕ(f ) = ϕ(g) für f, g ∈ Lin(Kn , Kn ), so stimmen beide Funktionen g, f auf den Einheitsvektoren (einer Basis des Kn ) überein, und sind identisch. Die Funktion ϕ ist ebenfalls surjektiv, denn gemäß Lemma 6.7 ist durch eine Matrix F ∈ Mn,n (K) eine lineare Abbildung f : x 7→ F x mit ϕ(f ) = F gegeben. Zu zeigen bleibt die Linearität der Funktion ϕ. Für f, g ∈ Lin(Kn , Km ) und λ, µ ∈ K gilt ϕ(λf + µg) = λ · f (ei ) + µ · g(ei ) 1≤i≤n = λ · f (ei ) 1≤i≤n + µ · g(ei ) 1≤i≤n = λ · ϕ(f ) + µ · ϕ(g). Die Abbildung ϕ : Lin(Kn , Km ) → Mm,n (K) ist somit ein Isomorphismus. In Satz 6.3 haben wir gezeigt, dass die Menge der linearen Abbildungen Lin(Kn , Kn ) mit Addition und Komposition einen Ring bildet. Dieser ist isomorph zum Ring der n × n Matrizen, wobei die Hintereinanderausführung f ◦ g zweier Abbildungen f, g ∈ Lin(Kn , Kn ) dem Produkt F · G der zugehörigen Matrizen entspricht: 2. Darstellende Matrix 67 Korollar 6.9. Sei K ein Körper. Die Ringe (Lin(Kn , Kn ), +, ◦) und (Mn,n (K), +, ·) sind isomorph. Beweis. Wir betrachten die Abbildung ϕ : Lin(Kn , Kn ) → Mn,n (K), f 7→ F := f (ei ) 1≤i≤n ∈ Mn,n (K) Aus dem Beweis zu Satz 6.8 wissen wir bereits, dass die Abbildung ϕ eine Bijektion darstellt. Ferner ist die Funktion additiv, d.h. für f, g ∈ Mn,n (K) gilt ϕ(f + g) = ϕ(f ) + ϕ(g). Zu zeigen bleibt, dass sie auch verträglich mit der Konkatenation bzw. Multiplikation ist: ϕ(f ◦ g) = ϕ(f ) · ϕ(g) = F · G Seien F = (fi,j )1≤i,j≤n = ϕ(f ) und G = (gi,j )1≤i,j≤n = ϕ(g). Es genügt zu zeigen, dass der i-te Spaltenvektor des Matrixprodukts F G gleich dem Bild (f ◦ g)(ei ) ist. Wegen fi,j = (f (ej ))i und gi,j = (g(ej ))i folgt aus der Linearität der Abbildungen f, g: ! n n n X X X gi,ν · eν = gν,i f (eν ) = f (eν ) · gν,i (f ◦ g)(ei ) = f (g(ei )) = f ν=1 ν=1 ν=1 Der Vektor f (eν ) ist der ν-te Spaltenvektor (fj,ν )1≤j≤n von F so dass gilt: Pn ν=1 f1,ν gν,i P n f2,ν gν,i ν=1 (f ◦ g)(ei ) = . .. Pn . f g ν=1 n,ν ν,i Das Bild (f ◦g)(ei ) stimmt mit der i-ten Spalte der Matrix F G überein, also ϕ(f ◦g) = F G. Wir haben uns auf die linaren Funktionen Lin(Kn , Kn ) (auf quadatische Matrizen) beschränkt, damit die Konkatenation (das Matrixprodukt) definiert ist. Man rechnet leicht nach, dass allgemein für f ∈ Lin(Km , Kr ) und g ∈ Lin(Kn , Km ) gilt: ϕ(f ◦ g) = | {z } ∈Mr,n (K) ϕ(f ) | {z } · ϕ(g) |{z} ∈Mr,m (K) ∈Mm,n (K) In anderen Fällen ist weder die Konkatenation der Funktionen f, g noch das Produkt der Matrizen definiert. Wir haben zuvor nur lineare Abbildungen der Form f : Kn → Km betrachtet. Seien U, V zwei K-Vektorräume, A = {a1 , . . . , an } eine geordnete Basis von U und B = {b1 , . . . , bm } eine geordnete Basis von V . Den Fall einer Abbildung f ∈ Lin(U, V ) für zwei beliebige Vektorräume reduziert man mittels der Koordinatenfunktion zu den Basen A und B Aλ 7→ (λ1 , λ2 , . . . , λn ) Bµ 7→ (µ1 , µ2 , . . . , µm ) 68 6. Lineare Abbildungen auf eine Abbildung der Form Kn → Km mit den kanonischen Einheitsvektoren als Basen. Die Matrix MA,B (f ) einer linearen Funktion f ∈ Lin(U, V ) bezüglich gegebener Basen A, B von U und V beschreibt die Abbildung der Koordinatenvektoren: Def inition 6.10 (Darstellungsmatrix einer linearen Abbildung). Seien U, V Vektorräume über einem Körper K, sowie A = {a1 , . . . , an } eine geordnete Basis von U und B = {b1 , . . . , bm } eine geordnete Basis von V . Die Darstellungsmatrix MA,B (f ) := (fij ) 1≤i≤m ∈ Mm,n (K) 1≤j≤n einer linearen Abbildung f ∈ Lin(U, V ) bezüglich der Basen A, B ist erklärt durch f (ai ) = n X fj,i bj für i = 1, . . . , m. j=1 Die i-te Spalte von MA,B (f ) ist der Koordinatenvektor von f (ai ) zur Basis B. Die Hintereinanderausführung zwei linearer Funktionen g : U → V und f : V → W für Vektorräume U, V, W mit Basen A, B, C bedeutet, dass man die darstellenden Matrizen multipliziert. Die darstellende Matrix FA,B einer linearen Funktion f : U → V hängt von den gewählten Basen A, B der Vektorräume U und V ab. Sei A0 eine weitere Basis von U . Der Basiswechsel, der Übergang von der Basis A0 zur Basis A des Vektorraums U wird durch den Isomorphismus bzw. die darstellende Matrix TA0 ,A beschrieben. Die beschreibende Matrix FA0 ,B der Abbildung f zu den Basen A0 , B lautet MA0 ,B (f ) = MA,B (f ) · TA0 ,A . Wählt man statt B eine andere Basis B 0 des Vektorraums V und sei TB0 ,B die darstellende Matrix dieses Basiswechsels, so ist die beschreibende Matrix FA0 ,B0 zu den Basen A0 , B 0 gegeben als das Matrixprodukt MA0 ,B0 (f ) = TB−1 0 ,B · MA,B (f ) · TA0 ,A . (15) Diese Identität nennt man Transformationsformel für darstellende Matrizen. Beispiel 6.11. Wir betrachten einen Endomorphismus f des Vektorraums K[X]2 der Polynome mit Grad maximal 2 über einem beliebigen Körper K. Seien A = {a1 , a2 , a3 } und B = {b1 , b2 , b3 } geordnete Basen, bestehend aus den Polynomen: a1 (X) = 1 + X + X 2 b1 (X) = X + X 2 a2 (X) = 1 + X b2 (X) = −1 + X a3 (X) = −1 b3 (X) = X 2 . Die Abbildung f ist gegeben durch die Bilder der Basisvektoren: f (a1 ) := b1 − b3 f (a2 ) := b3 f (a3 ) := b1 + b2 − b3 . 2. Darstellende Matrix 69 Aus dieser Definition der Funktion f läßt sich unmittelbar die darstellende Matrix MA,B (f ) bezüglich der Basen A, B herleiten, denn der i-te Spaltenvektor ist der Koordinatenvektor von f (ai ) zur Basis B: +1 0 +1 0 +1 MA,B (f ) = 0 −1 +1 −1 Wir führen einen Basiswechsel durch und ersetzen die Basis A durch die Basis A0 := {a01 , a02 , a03 }, bestehend aus den Polynomen: a01 (X) = 1 a02 (X) = X a03 (X) = X 2 Um die darstellende Matrix MA0 ,B (f ) der Funktion f zu berechnen, bestimmen wir zuerst die Transformationsmatrix TA0 ,A . Wegen a01 (X) = −a3 (X) a02 (X) = a2 (X) + a3 (X) a03 (X) = a1 (X) − a2 (X) lautet die Transformationsmatrix TA0 ,A 0 0 +1 = 0 +1 −1 −1 +1 0 und die darstellende Matrix MA0 ,B (f ) = MA,B (f ) · TA0 ,A : +1 0 +1 0 0 +1 −1 +1 +1 0 +1 · 0 +1 −1 = −1 +1 0 . MA0 ,B (f ) = 0 −1 +1 −1 −1 +1 0 +1 0 −2 Wir wollen unsere Rechnung überprüfen. Man überzeuge sich durch Nachrechnen, dass für die Funktion f gilt ! f (1) = B(MA0 ,B (f ) · e1 ) = −b1 − b2 + b3 ! f (X) = B(MA0 ,B (f ) · e2 ) = b1 + b2 ! f (X 2 ) = B(MA0 ,B (f ) · e3 ) = b1 − 2b3 wobei e1 , e2 , e3 die kanonischen Einheitsvektoren sind. Kapitel 7 Lineare Codes Ein wichtiges Teilgebiet der Kodierungstheorie, in der Vektorräume eine wichtige Rolle spielen, sind lineare Codes. 1. Grundbegriffe Eine Nachricht soll von einem Sender über einen Kanal an einen Empfänger übermittelt werden. Dabei handelt es sich um einen gestörten Übertragungskanal, d.h. die Nachricht kann fehlerhaft übertragen werden. Ziel ist es, dass der Empfänger die korrekte Nachricht dennoch erhält. Dazu wird die Nachricht kodiert, man fügt zusätzliche (redundante) Informationen hinzu. Statt der Nachricht überträgt man das zugehörige Codewort. Auch wenn bei der Übermittlung Fehler auftreten, kann der Empfänger mit Hilfe der im Codewort enthaltenen zusätzlichen Informationen die eigentliche Mitteilung bestimmen. gestörte evtl. gestörtes empfangene Nachricht Kodierung Codewort Übertragung Codewort Dekodierung Nachricht m 7→ c −−−−−−→ Kanal c̃ 7→ m An den Code werden dabei bestimmte Anforderungen gestellt: • Es sollen möglichst viele Fehler (Störungen) korrigiert werden können. • Die Codeworte sollen im Vergleich zu den Nachrichten nur unwesentlich länger sein. • Kodierung und Dekodierung sollen effizient durchzuführen sein. In der Praxis finden sich zahlreiche Anwendungen fehlerkorrigierender Codes, beispielsweise die Datenübertragung von Raumsonden zur Erde oder die Datenfernübermittlung mittels Modem. Auch in der Unterhaltungselektronik werden fehlerkorrigierende Codes verwendet: Die Daten auf CDs (Compact Discs) sind kodiert, damit der CD-Player kleinere Beschädigungen der CD ausgleichen kann. 71 72 7. Lineare Codes Wir beschäftigen uns in diesem Abschnitt mit einer wichtigen Klasse von Codes, den linearen Codes. Ein linearer Code ist ein Untervektorraum über einem endlichen Körper: Def inition 7.1 ([n, k]-Code). Sei K ein endlicher Körper. Ein K-Vektorraum C ⊆ Kn der Dimension k heißt [n, k]-Code über K. Im Fall K = F2 = {0, 1} sprechen wir von einem binären, linearen Code. Um Nachrichten mit Hilfe linearer Codes zu kodieren, wählen wir als Nachrichtenmenge den Vektorraum Kk der Worte der Länge k über dem Alphabet“ des Körpers ” K und verwenden eine injektive Abbildung c : Kk → C, die jeder Nachricht eindeutig ein Codewort eines [n, k]-Codes C ⊆ Kn zuweist.1 Die Dekodierung erfolgt mit der Minimal-Distanz-Dekodierung (auch Maximum-Likelihood-Dekodierung). Man ordnet dem übertragenen Codewort dasjenige Codewort zu, das ihm am ähnlichsten“ ist, ” d.h. welches den kleinsten Abstand zu ihm hat. Den Abstand zweier Codewörter wird mit der Hamming-Distanz 2 genannten Metrik (zur Definition einer Metrik siehe Kapitel 11, Definition 11.4 auf Seite 118; man rechnet leicht nach, dass die HammingDistanz die dort angegebenen Eigenschaften erfüllt) gemessen: Def inition 7.2 (Hamming-Distanz). Seien x, y ∈ Kn . Dann heißt d(x, y) := | {i | xi 6= yi } | Hamming-Distanz (auch Hamming-Abstand) von x und y. Die Hamming-Distanz ist die Anzahl der Komponenten, in denen sich zwei Vektoren unterscheiden. Die Minimal-Distanz-Dekodierung erfolgt in zwei Schritten: (1) Bestimme zu c̃ das Codewort c ∈ C mit minimalem Hamming-Abstand d(c̃, c). (2) Bestimme die dem Codewort c zugeordnete Nachricht m0 . Für lineare Codes genügt es, die Distanz zum Nullvektor zu betrachten: Def inition 7.3 (Hamming-Gewicht). Sei x ∈ Kn . Wir nennen w(x) := d(x, 0) = | {i | xi 6= 0 } | das Hamming-Gewicht von x. Je größer der Abstand der Codeworte voneinander ist, desto mehr Fehler kann man korrigieren. Eine wichtige Größe für lineare Codes ist deren Minimalabstand : Def inition 7.4 (Minimalabstand). Sei C ein [n, k]-Code. Dann bezeichnen wir d(C) := min {d(x, y) | x, y ∈ C, x 6= y } als den Minimalabstand von C. Für C = {0} setzen wir d({0}) = min ∅ = ∞. Um zu kennzeichnen, dass ein [n, k]-Code Minimalabstand d hat, spricht man auch von einem [n, k, d]-Code. 1Wir haben die Menge C der Codeworte als Code bezeichnet. Teilweise in der Literatur und nach DIN 44300 wird die eindeutige Zuordnung c : Kk → C als Code definiert. 2 Richard W. Hamming, einer der Gründerväter der Kodierungstheorie. Bell Laboratories, 1948. 1. Grundbegriffe 73 Def inition 7.5 (Minimalgewicht). Sei C ein [n, k]-Code. Dann heißt w(C) := min {w(x) | x ∈ C \ {0} } das Minimalgewicht von C. Für C = {0} setzen wir w({0}) = min ∅ = ∞. Für lineare Codes stimmt das Minimalgewicht mit dem Minimalabstand überein: Lemma 7.6. Sei C ⊆ Kn linearer Code. Dann gilt d(C) = w(C). Beweis. Sei C ⊆ Kn ein [n, k]-Code und x, y ∈ C. Für C = {0} folgt die Gleichheit trivialerweise. Für C 6= {0} ist der Abstand zwischen x und y die Anzahl der Komponenten, in denen sich die beiden unterscheiden. Genau für diese Komponenten ist aber auch die Differenz x − y von 0 verschieden. Damit gilt d(x, y) = w(x − y). Da wir bereits mit y = 0 ∈ C und x ∈ C alle Elemente von C erhalten, folgt die Behauptung. Bei einem Übertragungsfehler werden Komponenten des Codewortes c ∈ C verändert (Wir setzen zur Vereinfachung voraus, dass stets n Zeichen empfangen werden). Bezogen auf das empfangene Codewort bedeutet das c̃ = c + e mit einem Fehlervektor e ∈ Kn . Def inition 7.7 (t-fehlererkennend, t-fehlerkorrigierend). Ein linearer Code C heißt t-fehlererkennend, wenn die Minimal-Distanz-Dekodierung bis zu t fehlerhafte Komponenten in den gestörten Codewörtern erkennt. Ein linearer Code C heißt t-fehlerkorrigierend, wenn die Minimal-Distanz-Dekodierung bis zu t fehlerhafte Komponenten in den gestörten Codewörtern korrigiert. Wir veranschaulichen uns die Situation: Stellt man sich die Codewörter als Punkte im Raum Kn vor, so bilden diejenigen gestörten Codewörter (die Elemente des Kn ), welche die Minimal-Distanz-Dekodierung einem Codewort zuordnet, eine Kugel um dieses Codewort. Def inition 7.8 (Kugel). Sei C ⊆ Kn linearer Code. Dann nennen wir für c ∈ C Bt (c) := {x ∈ Kn | d(x, c) ≤ t } eine Kugel um c mit Hamming-Radius t. '$ '$ '$ '$ p p p p '$ '$ '$ '$ &% &% &% &% t p p p p c &% &% &% &% Alle Vektoren bzw. gestörten Codewörter innerhalb einer Kugel werden bei der Minimal-Distanz-Dekodierung dem Codewort im Mittelpunkt der Kugel zugeordnet. Es gibt Codes, die mehr Fehler erkennnen als korrigieren können, denn falls die Kugeln nämlich nicht disjunkt sind, sondern an ihrem Rand“ gemeinsame Punkte haben, ” sind diese zwar keine gültigen Codeworte, können aber auch nicht eindeutig einem gültigen Codewort zugeordnet werden (denn die Mittelpunkte der beiden Kugeln sind gleichweit entfernt). Aus obigen Betrachtungen folgt direkt 74 7. Lineare Codes Korollar 7.9. Ein linearer Code C ⊆ Kn ist genau dann t-fehlerkorrigierend, wenn d(C) ≥ 2t + 1. Wir präzisieren die Vorstellung davon, wieviel Nachricht“ und wieviel Korrek” ” turinformationen“ die Codewörter eines linearen Codes enthalten. Ein [n, k]-Code ist ein k-dimensionaler Untervektorraum eines n-dimensionalen Vektorraums über einem endlichen Körper K. Die Codewörter haben die Länge n, die Anzahl frei wählbarer Komponenten in den Codewörtern ist k. Wir haben also k Komponenten für die Informationen zur Verfügung und senden n Komponenten pro Codewort. Im Fall von binären Codes nennen wir k die Anzahl der Informationsbits und n−k die Anzahl der Korrekturbits. Informationsrate und Korrekturrate eines binären linearen Codes sind die Verhältnisse von Informationsbits bzw. Korrekturbits zur Länge der Codewörter: Def inition 7.10 (Informations- und Korrekturrate). Sei C ein binärer [n, k]-Code. Dann heißt k Anzahl Informationsbits = n Bitlänge die Informationsrate von C und l m d(C)−1 2 n = Anzahl Korrekturbits Bitlänge die Korrekturrate von C. Bis auf die schnelle Kodierung und Dekodierung können wir unsere Anforderungen vom Anfang des Kapitels an einen guten Code beschreiben: Def inition 7.11 (Guter Code). Eine Folge (Ci )n∈N von binären [ni , ki ]-Codes Ci heißt gut, wenn lim i→∞ ki > 0, ni lim i→∞ d(Ci ) > 0, ni lim ni = ∞. i→∞ Eine Folge binärer linearer Codes heißt gut, wenn Informationsrate und Korrekturrate bei steigender Bitlänge positiv bleiben. Beispiel 7.12. Um die Begriffe zu verdeutlichen und anzuwenden, betrachten wir zwei konkrete binäre lineare Codes. • Beim t-fachen Wiederholungscode wird jede Nachricht t-mal hintereinander verschickt: k C := (x, x, . . . , x) ∈ Fkt x ∈ F . 2 2 | {z } t-mal Die Nachrichten sind Vektoren aus Fk2 , haben also die Länge k und die Codewörter sind Vektoren über F2 der Länge n = kt für ein festes t ≥ 1. Der t-fachen Wiederholungscode C ist ein [kt, k]-Code mit Minimalgewicht 1. Grundbegriffe 75 d(C) = t. Wir bestimmen die Informationsrate und die Korrekturrate von C: Informationsrate = k 1 = kt t Korrekturrate = d t−1 2 e . kt Die Folge t-facher Wiederholungscodes stellt keinen guten Code dar, denn d t−1 e lim Informationsrate · Korrekturrate = lim 22 = 0. k→∞ k→∞ t k • Der binärer Code mit einem Paritätsbit beruht auf der Idee, die Nachricht um ein Prüfbit zu erweitern, derart, dass die Summe der Komponenten modulo 2 sets 0 ist: ( ) n X C := (x1 , . . . , xn ) ∈ Fn2 xi = 0 (mod 2) . i=1 Die Dimension von C ist um eins kleiner als die Länge dera Codewörter, denn ein Bit wird als Prüfbit verwendet. Der Paritätscode C läßt sich als Lösungsraum eines homogenen linearen Gleichungssystems über F2 auffassen C = Lös(eT , 0) mit eT = (1, 1, . . . , 1) ∈ M1,n (F2 ), denn in F2 gilt eT (x1 , . . . , xn )T = auf Seite 62 folgt Pn i=1 xi . Mit rang(eT ) = 1 und Satz 5.7 dim(C) = n − rang(eT ) = n − 1. Wir bestimmen das Minimalgewicht des Paritätscodes C. Da der Nullvektor bei der Bestimmung des Minimalgewichts nicht berücksichtigt wird und Vektoren mit nur einer von Null verschiedenen Komponente nicht zum Code gehören, gilt: d(C) = min w(c) = w((1, 1, 0, . . . , 0)) = 2. c∈C Wir berechnen die Informationsrate und die Korrekturrate von C: Informationsrate = 1 n−1 =1− n n Korrekturrate = d 2−1 1 2 e = . n n Die Folge der Paritätsbit-Codes ist ebenfalls kein guter Code, denn: n−1 lim Informationsrate · Korrekturrate = lim = 0. n→∞ n→∞ n2 Es gibt Folgen von guten Codes, zum Beispiel Justesen-Codes und Turbo-Codes. Diese beruhen auf endlichen Körpern K mit q m Elementen, q prim, insbesondere auf Körpern mit 2m Elementen. Die Konstruktion und Beweise gehen aber über den Rahmen der dieser Vorlesung hinaus [Lint98]. 76 7. Lineare Codes 2. Gitter und Kugelpackungen Die Konstruktion von binären [n, k]-Codes mit möglichst großem Minimalgewicht bei gegebenem (n, k) hängt mit dem Problem der dichtesten Kugelpackungen im Rn zusammen. Der Zusammenhang ergibt sich dabei unmittelbar aus den vorherigen Überlegungen. Da wir mit linearen Codes arbeiten, interessieren wir uns primär für diejenigen Kugelpackungen, die linearen Codes entsprechen. Es sind dies die sogenannten gitterartigen Kugelpackungen. Um den intuitiven Begriff eines Gitters zu formalisieren, stellen wir uns vor, dass wir ein Gitter über den n-dimensionalen Raum Rn legen und davon nur die Kreu” zungspunkte“ betrachten. Diese erhalten wir als die ganzzahligen Linearkombinationen einer Basis: Def inition 7.13 (Volldimensionales Gitter). Sei B := {b1 , . . . , bn } ⊂ Rn eine geordnete Basis des Rn . Dann heißt ) ( n X L(b1 , . . . , bn ) := t i b i ti ∈ Z ⊂ R n i=1 ein volldimensionales Gitter mit Gitterbasis B. Ein Gitter L ⊂ Rn ist eine additive Untergruppe des Rn , die keinen Häufungspunkt hat (diskret ist). Wir gehen auf Gitter in Kapitel 16 ab Seite 201 näher ein. Beispiel 7.14. Ein einfaches Beispiel für ein Gitter im Rn ist Zn mit der Gitterbasis e1 , . . . , en . Def inition 7.15 (Gitterartige Kugelpackung). Eine Kugelpackung des Rn heißt gitterartig, wenn die Kugelmittelpunkte ein Gitter bilden. Unter der Packungsdichte: einer gitterartigen Kugelpackung verstehen wir den Anteil der Kugelvolumen am gesamten Raum. Je höher die Packungsdichte einer gitterartigen Kugelpackung ist, desto größer sind die Abstände zwischen den Codeworten des entsprechenden linearen Codes. Wir nutzen diese Entsprechung, um diejenigen linearen Codes auszuzeichnen, die optimalen, d.h. dichtesten Kugelpackungen entsprechen Def inition 7.16 (t-perfekter Code). Ein linearer Code C ⊆ Kn heißt t-perfekt, wenn die Kugeln Bt (c) zu c ∈ C eine Zerlegung (Partition) des Kn bilden: [ a) Die Kugeln bedecken den gesamten Raum: Bt (c) = Kn . c∈C b) Die Kugeln sind disjunkt: Bt (c) ∩ Bt (c0 ) = ∅ für c, c0 ∈ C mit c 6= c0 . Für kleine n kennt man optimale, d.h. dichteste gitterartige Kugelpackungen des Rn [CS93]. Wir betrachten einige Beispiele: • R1 : Die reelle Zahlengerade ist einfach optimal aufzuteilen. Die Kugeln sind dabei die reellen Intervalle von der Größe der Länge des Gitterbasisvektors: 3. Generator- und PCH-Matrix 77 Da jede Zahl einem Intervall zugeordnet ist, beträgt die Packungsdichte 1. • R2 : Auch in der reellen Ebene entspricht die optimale Aufteilung der Vorstellung. Wir packen die Kreise möglichst dicht zusammen: '$ '$ '$ '$ p p p p '$ '$ '$ '$ &% &% &% &% p p p p &% &% &% &% Dabei gilt: Fläche der Halbkugel mit Radius 12 Fläche des gleichseitigen Dreiecks mit Kantenlänge 1 1 1 2 ( ) π π = 2 1 2√ = √ ≈ 0, 9069. 2 3 4 3 Packungsdichte = • R3 : Mit der gleichen Idee wie im R1 und R2 werden die Kugeln im reellen Raum zu einer Apfelsinen-Gitter-Packung“ angeordnet. Die Packungsdichte ” π beträgt 3√ . 2 • R8 : Im R8 ist die maximale Packungsdichte 2−4 . Die angegebenen Packungsdichten sind jeweils maximal für gitterartige Kugelpackungen des R1 , R2 , R3 und R8 . Innerhalb der Fragestellung der maximalen Packungsdichten im Rn gibt es noch ungelöste Probleme: • Maximale Packungsdichte von gitterartigen Kugelpackungen im Rn für n > 8. • Maximale Packungdichte für beliebige Kugelpackungen im Rn für n > 2. Dabei müssen die Kugeln den gleichen Radius haben. Für n = 3 nennt man dies das Problem von Kepler3. 3. Generator- und PCH-Matrix Da ein linearer Code ein Untervektorraum ist, kann man ihn durch eine Basis eindeutig charakterisieren. Für lineare Codes faßt man die Basisvektoren in einer Matrix zusammen. In der Kodierungstheorie betrachtet man üblicherweise Zeilenvektoren: Def inition 7.17 (Generatormatrix). Sei C ⊆ Kn ein [n, k]-Code und g1 , . . . , gk ∈ Kn eine Basis von C. Dann heißt T g1 .. G := . ∈ Mk,n (K) gkT Generatormatrix (auch Basismatrix) zu C. 3Johannes Kepler, 1571-1630 war ein berühmter Astronom und Mathematiker. Sein Hauptbeschäftigungsgebiet waren die Planetenbewegungen. 78 7. Lineare Codes Man kann einen [n, k]-Code C ⊆ Kn durch seine Generatormatrix angeben. Da jedes Codewort eine Linearkombination über K der Basisvektoren von C ist, gilt für die Generatormatrix von C n o n o C = GT u u ∈ Kk = (uT G)T u ∈ Kk . Für den Rn kennen wir den Begriff der Orthogonalität. Er besagt, dass zwei Vektoren x, y ∈ Rn senkrecht aufeinander stehen, wenn xT y = 0: x ⊥ y ⇐⇒ xT y = xy T = 0. Wir können diesen Begriff auf beliebige Vektorräume übertragen, dabei verliert er jedoch die geometrische Bedeutung des senkrecht Aufeinanderstehens“: So sind im ” Fn2 alle Vektoren mit einer geraden Anzahl von Einsern orthogonal zu sich selbst. Wir definieren zu einem gegebenen Untervektorraum U ⊆ Kn den dazugehörigen Orthogonalraum als den Untervektorraum derjenigen Vektoren, die orthogonal zu allen Vektoren aus U stehen: Def inition 7.18 (Orthogonalraum). Sei U ⊆ Kn ein K-Vektorraum. Dann ist U ⊥ := v ∈ Kn uT v = 0 für alle u ∈ U der Orthogonalraum zu U . Zu linearen Codes nennen wir den Orthogonalraum dualen Code: Def inition 7.19 (Dualer Code). Sei C ⊆ Kn ein [n, k]-Code. Dann heißt C ⊥ := u ∈ Kn cT u = 0 für alle c ∈ C der duale Code zu C. Der duale Code ist zu einem [n, k]-Code C ist ein linearer Code der Dimension n − k, denn ist G Generatormatrix zu C, dann gilt: dim C ⊥ = dim Lös(G, 0) = n − rang G = n − dim C = n − k. Satz 7.20. Sei C ⊆ Kn ein [n, k]-Code. Dann ist C ⊥ ein [n, n − k]-Code. Die Dimensionen eines linearen Codes und seines dualen Codes addieren sich zur Dimension des umgebenden Raumes auf: dim C + dim C ⊥ = k + n − k = n. Für beliebige K-Vektorräume U ⊆ Kn gilt analog dim U + dim U ⊥ = n. Lemma 7.21. Sei C ⊆ Kn ein [n, k]-Code. Dann ist C = (C ⊥ )⊥ . Beweis. Sei C ⊆ Kn ein [n, k]-Code und H ∈ Mn−k,n (K) Generatormatrix von C ⊥ . Nach Konstruktion gilt C ⊆ (C ⊥ )⊥ , denn (C ⊥ )⊥ besteht aus allen Vektoren, die orthogonal zu C ⊥ sind. Die Vektoren aus C sind per Definition orthogonal zu C ⊥ . Weiterhin gilt für die Dimension von (C ⊥ )⊥ mit Satz 7.20: dim(C ⊥ )⊥ = n − dim C ⊥ = n − (n − k) = k = dim C. Wegen C ⊆ (C ⊥ )⊥ und dim C = dim(C ⊥ )⊥ folgt mit Satz 3.20 und der Isomorphie endlich erzeugter Vektorräume zu Kn die Behauptung. 3. Generator- und PCH-Matrix 79 Die Generatormatrix des dualen Codes erlaubt es uns, schnell zu überprüfen, ob ein empfangenes Wort gültig ist, d.h. ob ein Vektor ein Codewort ist: Satz 7.22. Sei C ⊆ Kn ein [n, k]-Code und H Generatormatrix zu C ⊥ . Dann gilt für c ∈ Kn : c ∈ C ⇐⇒ Hc = 0. Der Test, ob ein empfangenes Wort ein gültiges Codewort ist, wird damit besonders einfach. Man nennt eine Generatormatrix H von C ⊥ daher eine PCH-Matrix (P arity CH eck-Matrix, auch Kontrollmatrix, Prüfmatrix ) zu C. Beachte, dass man mit Hilfe der Kontrollmatrix und Satz 7.22 nur effizient entscheiden kann, ob ein empfanges Wort ein (gültiges) Codewort darstellt oder nicht. Wir zeichnen diejenigen Generatormatrizen und PCH-Matrizen aus, deren linker bzw. rechter Teil die Einheitsmatrix ist: Def inition 7.23 (Kanonische Generatormatrix, kanonische PCH-Matrix). Eine Generatormatrix der Form (Ik , B) mit B ∈ Mk,n−k (K) heißt kanonische Generatormatrix. Eine PCH-Matrix der Form (A, In−k ) mit A ∈ Mn−k,k (K) heißt kanonische PCH-Matrix. Wir zeigen, dass und wie man zu einem gegebenen linearen Code eine kanonische Generatormatrix erhält. Voraussetzung ist, dass die ersten k Spalten der gegebenen Generatormatrix linear unabhängig sind. Satz 7.24. Sei C ⊆ Kn ein [n, k]-Code mit Generatormatrix G = (A, B) ∈ Mk,n (K), A ∈ Mk,k (K) und B ∈ Mk,n−k (K). Es gibt eine Generatormatrix G0 mit G0 = (Ik , B 0 ) genau dann, wenn rang A = k. Beweis. Nach Satz 3.24 ist A invertierbar und A−1 G = (Ik , A−1 B) ist Generatormatrix des linearen Codes C. Für kanonische Generatormatrizen gilt, dass die ersten k Komponenten der Codeworte c = (c1 , . . . , cn ) ∈ Kn jeden Wert (c1 , . . . , ck ) ∈ Kk annehmen. Die ersten k Komponenten (c1 , . . . , ck ) sind Informationsstellen, die übrigen Komponenten (ck+1 , . . . , cn ) sind Prüfstellen. Die eigentliche Information einer Nachricht m steht in den Informationsstellen. Die restlichen Prüfstellen sind redundant, sie dienen zur Fehlerkontrolle und Fehlerkorrektur. Für K = F2 sprechen wir von Informationsbits und Prüfbits. Die Kodierung einer Nachricht m ∈ Kk erfolgt durch die Abbildung m 7→ mT G. Gibt es zu jedem linearen Code eine kanonische Generatormatrix? Offensichtlich nicht; wir können jedoch eine Äquivalenzrelation auf linearen Codes einführen, so dass sich in jeder Äquivalenzklasse ein linearer Code mit kanonischer Generatormatrix findet. Zwei lineare Codes heißen äquivalent, wenn man ihre PCH-Matrizen durch Permutationen der Spalten ineinander überführen kann. Def inition 7.25 (Äquivalente Codes). Seien C, C 0 ⊆ Kn zwei [n, k]-Codes mit PCHMatrizen H, H 0 ∈ Mn−k,n (K). Dann heißen C und C 0 äquivalent, wenn eine Permutationsmatrix P ∈ Mn,n (K) mit H 0 = HP existiert. 80 7. Lineare Codes Man überzeuge sich, dass dies eine Äquivalenzrelation ist (siehe Definition 2.30 auf Seite 28). Satz 7.26. Zu jedem linearen Code gibt es einen äquivalenten Code mit kanonischer Generatormatrix. Beweis. Sei C ⊆ Kn ein [n, k]-Code mit Generatormatrix G ∈ Mk,n (K). Wir gehen in zwei Schritten vor: (1) Multiplikation mit einer regulären k × k Matrix T von links liefert eine neue Generatormatrix G0 = T G von C. (2) Multiplikation mit einer n × n Permutationsmatrix von rechts liefert die Generatormatrix G0 P eines äquivalenten Codes. Also ist für reguläre Matrizen T ∈ Mk,k (K) und Permutationsmatrizen P ∈ Mn,n (K) die Matrix T GP stets Generatormatrix eines zu C äquivalenten linearen Codes. Bleibt zu zeigen, dass es geeignete Matrizen T und P gibt so dass T GP = (Ik , B) ist. Dazu wählen wir P so, dass die ersten k Spalten von GP linear unabhängig sind. G hat genau k linear unabhängige Spalten, denn G ist eine Basis von C und es gilt daher k = dim C = rang G = Spaltenrang von G. Wir erhalten eine Matrix GP = (D, B) ∈ Mk,n (K) mit D ∈ Mk,k (K) und B ∈ Mk,n−k (K). Wegen rang D = k ist D regulär. Wir multiplizieren von links mit der regulären k × k Matrix D−1 und es gilt D−1 (D, B) = (Ik , B). Im Übungsaufgabe 9.2 stellen wir einen Zusammenhang zwischen kanonischer Generatormatrix und kanonischer PCH-Matrix eines linearen Codes her. Dieser erlaubt es, Generatormatrix bzw. PCH-Matrix eines linearen Codes (und damit sowohl den linearen Code selbst als auch seinen dualen Code) durch eine einzige Matrix A anzugeben. Diese genügt zur Bestimmung von G und H. Satz 7.27. Sei C ⊆ Kn ein [n, k]-Code und A ∈ Mk,n−k (K). Genau dann ist (Ik , A) eine Generatormatrix zu C, wenn (−AT , In−k ) PCH-Matrix zu C ist. 4. Hamming-Codes Wir lernen eine weitere Klasse binärer linearer Codes kennen, die Hamming-Codes.4 Hamming-Codes sind 1-fehlerkorrigierend und gestatten eine einfache Dekodierung. r Def inition 7.28 (Hamming-Code). Der binäre Hamming-Code Cr ⊂ F22 −1 ist der Code zur PCH-Matrix Hr , deren Spalten aus den 2r − 1 Vektoren von Fr2 \ {0} besteht. Der Hamming-Code Cr ist also ein [2r − 1, 2r − r − 1]-Code. Charakteristisch für binäre Hamming-Codes sind die paarweise verschiedenen Spaltenvektoren der Kontrollmatrix. Die Reihenfolge der Spalten von H ist willkürlich, denn eine andere Anordnung erzeugt einen äquivalenten Code mit gleichen Eigenschaften. Für r = 3 sieht 4R.W. Hamming, siehe Fußnote auf Seite 72 4. Hamming-Codes 81 die kanonische PCH-Matrix des Hamming-Codes 1 1 1 0 1 H3 = 1 1 0 1 0 1 0 1 1 0 C3 wie folgt aus: 0 0 1 0 . 0 1 Das Minimalgewicht eines Hamming-Codes Cr ist konstant: Satz 7.29. Für den Hamming-Code Cr gilt d(Cr ) = 3. Er ist 1-fehlerkorrigierend. Beweis. Offenbar gibt es ein Codewort c ∈ Cr mit w(c) = 3, so dass d(Cr ) ≤ 3. Es genügt, d(Cr ) ≥ 3 zu zeigen: • Falls d(C) = 1,gäbe es ein c ∈ C mit w(c) = 1. Wegen Hr c = 0 müßte eine Spalte in Hr gleich 0 sein. Widerspruch. • Falls d(C) = 2, gäbe es ein c ∈ C mit w(c) = 2, d.h. zwei Komponenten von c wären 1 und alle anderen 0. Wegen Hr c = 0 müßten zwei Spalten von Hr gleich sein. Widerspruch. Also ist d(C) = 3.5 Um ein empfangenes Hamming-Code-Wort c̃ zu dekodieren, berechne H c̃ und unterscheide zwei Fälle: a) H c̃ = 0: Da nach Satz 7.22 ein gültiges Codewort empfangen wurde, sind entweder keine oder mindestens drei Fehler aufgetreten. Wir setzen c := c̃.6 b) H c̃ 6= 0: Es ist mindestens ein Fehler aufgetreten. Falls genau ein Fehler aufgetreten ist, gilt H c̃ = H(c + ei ) = 0 + hi , wobei hi ∈ M1,2r −1 (F2 ) die i-te Spalte von H ist. Da die Spalten von H paarweise verschieden sind, ist die Spalte eindeutig bestimmt und wir setzen c := c̃ − ei . Wir berechnen die Packungsdichte der einem (binären) Hamming-Code Cr entr r sprechenden gitterartigen Kugelpackung des F22 −1 . Der Hamming-Code Cr ⊂ F22 −1 r ist ein [2r − 1, 2r − r − 1]-Code. Aufgrund K = F2 gilt |C| = 22 −r−1 und wegen d(C) = 3 sind die Kugeln B1 (c) paarweise disjunkt. Da eine Kugel mit Radius 1 genau die Codewörter enthält, die sich von ihrem Mittelpunkt c in genau einer Komponente unterscheiden, gilt |B1 (c)| = 1 + dim F22 r −1 = 2r . Die Kugeln nehmen den gesamten Raum ein: P |B1 (c)| r |Cr |2r 22 −r−1 2r c∈Cr Packungsdichte = = = = 1. 22r −1 22r −1 22r −1 5Man kann den Satz auch aus Übungsaufgabe 10.1 folgern: Die Spalten von H sind paarweise r verschieden und damit über F2 linear unabhängig, also d(Cr ) ≥ 2 + 1. Umgekehrt ist die Summe der ersten drei Spalten Null, so dass d(Cr ) < 3 + 1 gilt. 6Falls mehr zwei Übertragungsfehler aufgetreten sind, ist diese Wahl falsch, wir können dies aber nicht erkennen. 82 7. Lineare Codes Wir haben den folgenden Satz bewiesen, wonach der Hamming-Code Cr ⊂ F22 Beispiel eines 1-perfekten Codes ist: r −1 das Satz 7.30. Die Kugeln B1 (c) mit Hammingradius 1 um die Codeworte des Hammingr r Codes Cr ⊂ F22 −1 bilden eine Zerlegung von F22 −1 . Kapitel 8 Direkte Summe Zu einem Untervektorraum U des Rn betrachten wir das orthogonale Komplement U ⊥ aller auf U senkrecht stehenden Vektoren. Jeder Vektor w ∈ Rn kann eindeutig als Summe eines Vektors aus U und eines Vektors aus U ⊥ dargestellt werden. Diese Zerlegung formalisieren wir mit dem Begriff der direkten Summe. 1. Orthogonales Komplement Sei K ein Körper und U ⊆ Kn ein Untervektorraum. In Kapitel 7 haben wir den Orthogonalraum U ⊥ zu U definiert als U ⊥ := v ∈ Kn uT v = 0 für alle u ∈ U ⊆ Kn . Sowohl U als auch der zugehörige Orthogonalraum U ⊥ sind Untervektorräume von Kn . Nach Satz 7.20 stehen die Dimensionen in folgender Relation: dim U + dim U ⊥ = n. Für den Fall K = R zeigen wir, dass im Durchschnitt U ∩ U ⊥ nur der Nullvektor liegt, man nennt daher U ⊥ ⊆ Rn das orthogonale Komplement zum Untervektorraum U ⊆ Rn . Der Orthogonalraum U ⊥ ist im Vektorraum Rn komplementär im Sinne einer sogenannten direkten Summe o n U ⊕ U ⊥ = u + v u ∈ U, v ∈ U ⊥ = Rn bei der jeder Vektor w ∈ Rn als (eindeutig bestimmte) Summe w = u + v mit u ∈ U und v ∈ U ⊥ darstellbar ist: Satz 8.1. Sei U ⊆ Rn ein Untervektorraum von Rn . Dann gilt: a) U ∩ U ⊥ = {0}. b) Jeder Vektor w ∈ Rn ist eindeutig darstellbar als Summe w = u + v mit u ∈ U und v ∈ U ⊥ . 83 84 8. Direkte Summe Beweis. Sei U ⊆ Rn ein Untervektorraum von Rn . Wir zeigen U ∩ U ⊥ = {0}. Sei v ∈ U ∩ U ⊥ . Wegen vi2 ≥ 0 folgt aus vT v = n X vi2 = 0, i=1 dass vi = 0 für alle i, also v der Nullvektor ist.1 Zu zeigen bleibt, dass die Darstellung w = u + v mit u ∈ U und v ∈ U ⊥ eindeutig ist. Sei b1 , . . . , bk eine Basis von U und bk+1 , . . . , bn eine Basis von U ⊥ . Wir zeigen, P dass die Vektoren b1 , . . . , bn eine Basis von Rn bilden. Seien λ1 , . . . , λn ∈ Rn mit ni=1 λi bi = 0. Dann gilt: k X λ i bi = − n X i=1 i=k+1 | {z } | ∈U λ i bi {z ∈U ⊥ } Da der Vektor auf der linken Seite in U und der auf der rechten in U ⊥ ist, liegen beide Vektoren sowohl in U als auch in U ⊥ , also im Durchschnitt U ∩ U ⊥ . Wegen U ∩ U ⊥ = {0} sind beide Vektoren 0. Weil b1 , . . . , bk und bk+1 , . . . , bn Basen sind, folgt: λ 1 = · · · = λk = 0 λk+1 = · · · = λn = 0. Die n Vektoren b1 , . . . , bn ∈ Rn sind linear unabhängig und bilden nach Satz 3.20 eine Basis des Vektorraums Rn . Wir definieren zwei lineare Abbildungen, die einen Vektor w auf seine Anteile in U und dem orthogonalen Komplement U ⊥ abbilden (diese Abbildung heissen Projektionen): πU : n X i=1 πU⊥ : Rn → U λi bi 7→ k X n X λ i bi i=1 i=1 Rn → U ⊥ λi bi 7→ n X λ i bi . i=k+1 Offenbar gilt w = πU (w) + πU⊥ (w). Diese Zerlegung mit πU (w) ∈ U und πU⊥ (w) ∈ U ⊥ ist eindeutig, weil b1 , . . . , bn eine Basis von Rn ist. Für die beiden Projektionen π und π ⊥ , die wir im Beweis zu Satz 8.1 definiert haben, gilt π ◦ π = π und π ⊥ ◦ π ⊥ = π ⊥ . Dies ist charakteristisch für Projektionen, die man für beliebige, algebraische Strukturen (Gruppen, Ringe, Vektorräume, usw.) bildet: Def inition 8.2 (Projektion). Eine Projektion π ist ein Endomorphismus mit π ◦ π = π. Die Funktion πU : V → U , die den Vektor aus dem Vektorraums V auf seinen Anteil im Untervektorraum U abbildet, nennt man orthogonale Projektion von V auf U . 1Für diesen Schluß setzen wir voraus, dass v , . . . , v reelle Zahlen sind, für endliche Körper gilt 1 n dies im allgemeinen nicht. 2. Direkte Summe 85 2. Direkte Summe Nach Satz 8.1 gilt für einen Untervektorraum U ⊆ Rn und den zugehörigen Orthogonalraum U ⊥ : U + U ⊥ = {u + v | u ∈ U, v ∈ U ⊥ } = Rn U ∩ U ⊥ = {0}. Dies ist ein Beispiel einer (inneren) direkten Summe Rn = U ⊕ U ⊥ : Def inition 8.3 (Innere direkte Summe). Seien U1 , . . . , Ut Untervektorräume desselben Vektorraums. Dann nennen wir ) ( n t t M X X Ui := Ui = ui ui ∈ Ui i=1 i=1 i=1 P innere direkte Summe, falls Ui ∩ i6=j Uj = {0} für j = 1, . . . , t. P Seien U1 , . . . , Ut mit Ui ∩ i6=j Uj = {0} Untervektorräume. Die Dimension des L Vektorraums ti=1 Ui ist die Summe dim t M i=1 Ui = t X dim Ui i=1 der Dimension der einzelnen Untervektorräume (Übungsaufgabe 10.4). Analog, aber verschieden von der inneren direkten Summe ist die externe direkte Summe (auch direktes oder kartesisches Produkt): n × Ui := {(u1 , u2 , . . . , un ) | ui ∈ Ui } . i=1 Für die externe direkte Summe müssen U1 , . . . , Un nicht notwendigerweise Untervektorräume desselben Vektorraums sein. Die Begriffe innere und externe direkte Summe erklärt man für beliebige, algebraische Strukturen mit kommutativer Addition, wie zum Beispiel Abelsche Gruppen, Ringe, Ringe mit Eins, Vektorräume usw. Im folgenden sei (Ai )i∈I eine Familie von Mitgliedern einer solchen algebraischen Struktur. Die Abbildung i 7→ Ai sei injektiv, I ⊆ N heißt Indexmenge. Es bezeichne 0i ∈ Ai das neutrale Element der Addition und (gegebenenfalls) 1i ∈ Ai das Einselement. Def inition 8.4 (Externe direkte Summe). Sei (Ai )i∈I eine Familie von Mitgliedern einer algebraischen Struktur mit kommutativer Addition. Dann nennen wir × Ai := {(ai )i∈I | ai ∈ Ai , ai = 0i bis auf endlich viele i ∈ I } i∈I externe direkte Summe. Die Operationen auf ×i∈I Ai werden komponentenweise erklärt: (ai )i∈I (bi )i∈I := (ai bi )i∈I λ · (ai )i∈I := (λ · ai )i∈I . ∈ {+, −, ·, /, . . .} 86 8. Direkte Summe Assoziativität, Kommutativität und (gegebenenfalls) Distributivität der Operationen übertragen sich wegen der komponentenweise Definition der Operationen aus der Familie (Ai )i∈I der algebraischen Struktur. (0i )i∈I ist das Nullelement und (1i )i∈I das Einselement der externen direkten Summe ×i∈I Ai . Satz 8.5. Für eine Familie (Ai )i∈I von Gruppen, Ringe oder Vektorräumen hat die externe direkte Summe ×i∈I Ai die gleiche algebraische Struktur. Satz 8.5 gilt nicht für Körper und Schiefkörper, denn ein Element (ai )i∈I ist genau dann invertierbar, wenn zu jedem ai das Inverse a−1 existiert. Es gibt aber (ai )i∈I i ungleich der Null, zu denen kein Inverses existiert. Zum Beispiel ist A := K × K für einen Körper K kein Körper, da es zu (1, 0) 6= 0 kein Inverses in K × K gibt: Beispiel 8.6. Die externe direkte Summe Z2 × Z3 der beiden endlichen Körper Z2 und Z3 besteht aus den sechs Elementen: (0, 0), (1, 0), (0, 1), (1, 1), (0, 2), (1, 2). Die Addition und Multiplikation ist definiert als (a1 , a2 ) + (b1 , b2 ) := (a1 + a2 mod 2, b1 + b2 mod 3) (a1 , a2 ) · (b1 , b2 ) := (a1 · a2 mod 2, b1 · b2 mod 3). Zwar ist Z2 × Z3 wie Z2 und Z3 ein Ring, aber kein Körper. Für den Vektorraum Rn mit Unterraum U und orthogonalem Komplement U ⊥ gilt: Rn = U ⊕ U ⊥ ' U × U ⊥ . Der Isomorphismus Ψ : U × U ⊥ → Rn ist gegeben durch (u, v) 7→ u + v. Die Umkehrabbildung ist Ψ−1 (x) = πU (x), πU⊥ (x) mit den beiden Projektionen πU und πU⊥ aus dem Beweis zu Satz 8.1. Wir charakterisieren die externe direkte Summe ×i∈I Ai ohne Bezug auf die Darstellung der Elemente (ai )i∈I zu nehmen. Die externe, direkte Summe ×i∈I Ai ist L isomorph zur inneren, direkten Summe ti=1 hi (Ai ) für geeignete Monomorphismen (Injektionen) hi : Ai → A: Satz 8.7. Sei (Ai )i∈I eine Familie von Mitgliedern einer algebraischen Struktur mit einer kommutativen Addition. Es gilt A ' × Ai i∈I genau dann, wenn es Monomorphismen (Injektionen) hi : Ai →PA für jedes i ∈ I gibt, derart, dass jedes a ∈ A eine eindeutige Zerlegung2 a = i∈I hi (ai ) hat mit ai ∈ Ai , so dass ai = 0i (d.h. hi (ai ) = 0A ) für alle bis auf endlich viele i ∈ I. Beweis. Wir zeigen beide Richtungen: P 0 0 2Eindeutigkeit der Zerlegung heißt, dass aus P i∈I hi (ai ) = i∈I hi (ai ) folgt ai = ai . 2. Direkte Summe 87 ⇒“ A ' ×i∈I Ai ⇒ die Zerlegungen aus Satz 8.7 existieren. L ” Wir definieren zu A := ti=1 hi (Ai ) Abbildungen hi : Ai → A gemäß x 7→ (aj )j∈I mit ( x falls i = j aj := 0 falls i 6= j. P Offenbar hat a := (aj )j∈I ∈ A die eindeutige Darstellung a = i∈I hi (ai ). Die Summe ist endlich, denn nach Definition der externen Summe gilt ai = 0i , d.h. hi (ai ) = 0A , für alle bis auf endlich viele i ∈ I. Nach Voraussetzung existiert ein Isomorphismus Ψ : ×i∈I Ai → A. Wir setzen die Injektion hi fort zu Ψ ◦ hi : A i → A mit Ψ ◦ hi (ai ) = Ψ(h(ai )). Die Eindeutigkeit der Darstellung a = hi (ai ) mit ai ∈ Ai überträgt sich beim Isomorphismus Ψ. P i∈I Ψ◦ ⇐“ Die Zerlegungen aus Satz 8.7 existieren ⇒ A ' ×i∈I Ai ” Seien hi : Ai → A Injektionen, so dass es eine eindeutige Zerlegung a = P i∈I hi (ai ) mit ai ∈ Ai gibt. Wir definieren einen Homomorphismus Ψ : ×i∈I Ai → A gemäß X Ψ ((ai )i∈I ) := hi (ai ). i∈I Die Summe ist endlich, weil bis auf endlich viele i ∈ I gilt ai = 0i und hi (ai ) = 0A ∈ A. Die Abbildung Ψ ist surjektiv, denn nach Voraussetzung P existiert zu jedem a ∈ A eine Zerlegung a = i∈I hi (ai ). Aus der Eindeutigkeit der Zerlegung folgt, dass Ψ injektiv ist. Die Abbildung Ψ : ×i∈I Ai → A ist der gesuchte Isomorphismus. Dies war zu zeigen. Beispiel 8.8. Wir wollen Satz 8.7 anhand eines Beispieles verdeutlichen: Betrachte Z2 × Z3 . Wir zeigen, dass Z6 ' Z2 × Z3 ist. Dazu definiere Monomorphismen • h1 : Z2 → Z6 mit h1 (x) := 3x mod 6 und • h2 : Z3 → Z6 mit h2 (x) := 4x mod 6. Es gilt: ( 1 mod 2 3≡ 0 mod 3 und ( 0 mod 2 4≡ 1 mod 3. Zu a ∈ Z6 ist nachzuweisen, dass eine eindeutige Zerlegung als (a1 , a2 ) ∈ Z2 × Z3 mit a = h1 (a1 ) + h2 (a2 ) 88 8. Direkte Summe existiert. Setze a1 := a mod 2 und a2 := a mod 3. Aus der Tabelle a ∈ Z6 a1 ∈ Z2 h1 (a1 ) ∈ Z6 a2 ∈ Z3 h2 (a2 ) ∈ Z6 h1 (a1 ) + h2 (a2 ) ∈ Z6 0 0 3·0=0 0 4·0=0 0+0=0 1 1 3·1=3 1 4·1=4 3+4=1 2 0 3·0=0 2 4·2=2 0+2=2 3 1 3·1=3 0 4·0=0 3+0=3 4 0 3·0=0 1 4·1=4 0+4=4 5 1 3·1=3 2 4·2=2 3+2=5 folgt die Behauptung. Diese Konstruktion gilt allgemein für das Produkt n von paarweise teilerfremden Zahlen q1 , q2 , . . . , qt : Zn ' Zq1 × Zq2 × · · · × Zqt . Diese Isomorphie heißt Chinesischer Restsatz und wird in den Vorlesungen über Al” gebra“ und diskrete Mathematik“ vorgestellt. ” Für unendliche Familien (Ai )i∈I definiert man das direkte Produkt im Unterschied zur externen direkten Summe als Y Ai := {(ai | i ∈ I) | ai ∈ Ai } . i∈I Es ist ×i∈I Ai ⊆ Q i∈I Ai , für endliche Indexmengen I gilt die Gleichheit. Kapitel 9 Volumina und Determinanten Die Determinante einer quadratischen Matrix ist eine dieser Matrix zugeordnete Zahl. Diese Zuordnung, die Determinantenfunktion, hat charakteristische Eigenschaften, die wir in diesem Kapitel untersuchen. Neben dem Nachweis der Existenz und der Eindeutigkeit der Determinantenfunktion lernen wir Methoden zu ihrer Berechnung kennen. 1. Volumina Das Volumen von Körpern wie beispielsweise Quadern, Würfeln oder Kugeln im 3dimensionalen Raum ist ein aus der Schule bekannter Begriff. Wir verallgemeinern den Begriff des Volumens vom R3 auf den Rn . Die resultierende Volumenfunktion hat nahezu die Eigenschaften der Determinantenfunktion und motiviert so deren Einführung. Def inition 9.1 (Euklidische Länge). Sei b = (b1 , . . . , bn ) ∈ Rn . Dann heißt v u n √ uX kbk := t b2i = bT b i=1 die (euklidische) Länge1 von b. Wir betrachten dabei nur die positive Lösung der Wurzel. Volumina setzen die euklidische Länge als Norm voraus. Man sieht an dieser Stelle bereits, warum wir uns auf die reellen Zahlen beschränken, denn für endliche Körper hat die Länge keine geometrische Bedeutung. Im Rn dagegen gilt wegen b =: (b1 , . . . , bn )T ∈ Rn , dass b = 0 genau dann, wenn kbk = 0. 1Die euklidische Länge ist ein Spezialfall der p-Norm mit p = 2. Wir untersuchen Normen allgemein in Kapitel 11. 89 90 9. Volumina und Determinanten Die Vorstellung, dass zwei Vektoren eine Fläche aufspannen, drei Vektoren einen Quader, usw. erweitern wir auf den allgemeinen Fall. Dazu betrachten wir die Menge aller Linearkombinationen mit Skalaren aus dem reellen Intervall [0, 1]: Def inition 9.2 (Parallelepiped). Seien b1 , . . . , bn ∈ Rn . Dann nennen wir ( n ) X P (b1 , . . . , bn ) := ti bi t1 , . . . , tn ∈ R mit 0 ≤ t1 , . . . , tn ≤ 1 i=1 das von b1 , . . . , bn aufgespannte Parallelepiped (auch Parallelotop, Parallelflach). Beispiel 9.3. Das Parallelepiped eines Vektors b1 ∈ Rn besteht aus allen Punkten auf dem Geradenstück vom Nullpunkt zu b1 : 1 b1 0 Das Parallepiped zweier Vektoren b1 , b2 ∈ Rn besteht aus dem von den beiden Vektoren aufgespannten Flächenstück: b2 b1 - Stehen die Vektoren senkrecht aufeinander, ist das Volumen von P (b1 , . . . , bn ) Q gleich dem Produkt der Seitenlängen ni=1 kbi k. Im allgemeinen Fall ordnen wir einer Folge von Vektoren b1 , . . . , bn ∈ Rn die Orthogonalvektoren (Höhen) b∗1 , . . . , b∗n ∈ Rn wie folgt zu: Def inition 9.4 (Orthogonalvektoren). Seien b1 , . . . , bn ∈ Rn . Dann setzen wir Ui = span(b1 , . . . , bi−1 ) und ordnen b1 , . . . , bn die Orthogonalvektoren b∗1 , . . . , b∗n ∈ Rn zu mit bi = (bi − b∗i ) + b∗i ∈ Ui ⊕ Ui⊥ . Die Zerlegung der bi ist gemäß Satz 8.1 eindeutig. Es gilt: bi − b∗i ∈ span(b1 , . . . , bi−1 ) und b∗i ∈ span(b1 , . . . , bi−1 )⊥ . Für i < j gilt per Definition bTi b∗j = 0, also bi ⊥ b∗j und es ist span(b1 , . . . , bi ) = span(b∗1 , . . . , b∗i ). Ein Orthogonalvektor b∗i steht damit senkrecht zu allen vorherigen Vektoren b1 , . . . , bi−1 und der von den Orthogonalvektoren aufgespannte Raum ist der gleiche wie der von den ursprünglichen Vektoren b1 , . . . , bn aufgespannte Raum. Man beachte, dass sich die Parallelepipede P (b1 , . . . , bn ) und P (b∗1 , . . . , b∗n ) unterscheiden, das Volumen der Parallelepipede jedoch gleich bleibt. 1. Volumina 91 Beispiel 9.5. Wir verdeutlichen uns die Situation für zwei Vektoren b1 , b2 ∈ Rn anhand einer Zeichnung: 6 b∗2 b2 - b1 = b∗1 Hier wird deutlich, warum nicht nur die linearen Hüllen der Vektoren und ihrer Orthogonalvektoren gleich sind, sondern auch, warum sich das Volumen beim Übergang zu den Orthogonalvektoren nicht ändert. Def inition 9.6 (Volumen). Seien b1 , . . . , bn ∈ Rn und b∗i , . . . , b∗n ∈ Rn die zugehörigen Orthogonalvektoren. Dann heißt n Y vol P (b1 , . . . , bn ) = kb∗i k i=1 das Volumen von P (b1 , . . . , bn ). Wir kommen zu den Eigenschaften des Volumens, die im Wesentlichen auch die der Determinantenfunktion sein werden: Lemma 9.7 (Eigenschaften des Volumens). Seien b1 , . . . , bn ∈ Rn , λ ∈ R und i 6= j. Dann gilt: (V1) vol P (b1 , . . . , bi + λbj , . . . , bn ) = vol P (b1 , . . . , bi , . . . , bn ). (V2) vol P (b1 , . . . , λbi , . . . , bn ) = |λ| · vol P (b1 , . . . , bi , . . . , bn ). (V3) {b1 , . . . , bn } linear abhängig =⇒ vol P (b1 , . . . , bn ) = 0. (V4) P (b1 , . . . , bn ) = P (bσ(1) , . . . , bσ(n) ) für alle Permutationen σ ∈ Sn . Beweis. Seien b1 , . . . , bn ∈ Rn , λ ∈ R und i 6= j. (V1) O.B.d.A. sei j < i (denn wegen (V4) ändert sich das Volumen für j > i nicht). Dann gilt b∗i = (bi + λbj )∗ ∈ span(b1 , . . . , bi−1 )⊥ Mit anderen Worten: Der Orthogonalvektor b∗i steht senkrecht zu allen vorherigen Vektoren b1 , . . . , bi−1 und deswegen auch zu allen Linearkombinationen dieser Vektoren. Somit bleibt das Volumen gleich, wenn man das skalare Vielfache eines Vektors zu einem anderen Vektor addiert. (V2) Es gilt (λbi )∗ = λ(b∗i ). In der Produktbildung in Definition 9.6 können wir den Skalar im Betrag herausziehen: kλb∗i k = |λ| · kb∗i k. (V3) O.B.d.A. sei {b1 , . . . , bi−1 } linear unabhängig und {b1 , . . . , bi } linear abhängig (denn mit (V4) können die Vektoren vertauscht werden). Dann läßt sich bi als Linearkombination von b1 , . . . , bi−1 darstellen und der orthogonale Anteil von bi ist 0, also b∗i = 0 und die Behauptung folgt. Die letzte Aussage gilt trivialerweise. 92 9. Volumina und Determinanten 2. Determinanten Die geometrische Anschauung des Volumens setzt reelle Vektorräume voraus. Für beliebige Körper K verallgemeinert man die Volumenfunktion zur vorzeichenbehafteten Determinantenfunktion. Wir identifizieren Kn×n ∼ = Mn,n (K) und definieren die Determinantenfunktion axiomatisch durch ihre Eigenschaften: Def inition 9.8 (Determinantenfunktion). Eine Abbildung z1 .. det : Mn,n (K) → K, M = . 7→ det M zn heißt Determinantenfunktion, wenn für λ ∈ R und i 6= j gilt: z1 z1 .. .. . . (D1) det zi + λzj = det zi .. .. . . zn zn z1 z1 .. .. . . (D2) det λzi = λ det zi .. .. . . zn zn (D3) det In = 1 Wir zeigen in Satz 9.12, dass die Determinantenfunktion durch (D1) – (D3) eindeutig charakterisiert ist. Um die Analogie zu den Eigenschaften der Volumenfunktion zu verdeutlichen, leiten wir weitere Eigenschaften, aus (D1)–(D3) her. Während die Beziehung zwischen (V1) und (D1) bzw. (V2) und (D2) unmittelbar ersichtlich ist — der einzige Unterschied findet sich im Fehlen des Betrags des Skalars — trifft dies für (V3) und (D3) nicht zu. Wir zeigen daher die folgende Ergänzung zu (D3): Lemma 9.9. Sei A ∈ Mn,n (K). Dann gilt: (D3’) Aus rang A < n folgt det A = 0. Beweis. Seien z1 , . . . , zn ∈ M P1,n (K) die Zeilenvektoren von A ∈ Mn,n (K) mit rang A < n. O.B.d.A. sei z1 = ni=2 λi zi . Dann gilt: Pn 0 0 i=2 λi zi z z z 2 (D1) 2 (D2) 2 det A = det = det .. = 0 · det .. = 0. .. . . . zn Es folgt die Behauptung. zn zn 2. Determinanten 93 Wir kommen zum Analogon von (V4), der Schiefsymmetrie. Die Determinante wechselt beim Vertauschen zweier Zeilen das Vorzeichen. Lemma 9.10. Seien z1 , . . . , zn ∈ M1,n (K) Zeilenvektoren einer quadratischen Matrix. Dann gilt für i 6= j: z1 z1 .. .. . . zi zj .. (D4) det . = − det ... . zj zi .. .. . . zn zn Beweis. Es gilt: .. .. .. .. .. . . . . . zi zi −zj −zj zj (D1) .. .. (D1) .. (D1) .. (D2) det . = det . = det . = det . = − det ... . zj zj + zi zj + zi zi zi .. .. .. .. .. . . . . . Dies war zu zeigen. Die Determinantenfunktion ist nicht nur im Sinne von (D2) linear, sondern sie ist auch in jeder Zeile linear: Lemma 9.11. Seien z1 , . . . , zn ∈ M1,n (K) Zeilenvektoren einer Matrix. Dann gilt z1 z1 z1 .. .. .. . . . 0 0 (D5) det zi + zi = det zi + det zi .. .. .. . . . zn zn zn Eine Funktion die (D2) und (D5) erfüllt heißt multilinear. Beweis. Seien z1 , . . . , zn ∈ M1,n (K) Zeilenvektoren einer Matrix und z1 z1 .. .. . . 0 0 Z := Z := zi zi . .. .. . . zn zn 94 9. Volumina und Determinanten Falls rang Z < n und rang Z 0 < n gilt, ist auch z1 .. . 0 rang zi + z i < n .. . zn und alle in Lemma 9.11 auftretenden Determinanten sind 0. Sei im weiteren rang Z = n oder rang Z 0 = n. Wir können o.B.d.A. rang Z = n annehmen. Dann ist {z1 , . . . , zi , . . . , zn } eine Basis des Kn und zi0 läßt sich darstellen als zi0 = n P λi zi . Es folgt: i=1 z1 z1 z1 z1 z1 .. .. .. .. .. . . . . . 0 (D1) (D2) 0 detzi + zi = detzi + λi zi = (1 + λi ) det zi = det zi + det zi . .. .. .. .. .. . . . . . zn zn zn zn zn Wir vergewissern uns, dass (D1) – (D3) die Determinantenfunktion eindeutig charakterisieren: Satz 9.12 (Eindeutigkeit der Determinantenfunktion). Es gibt höchstens eine Determinantenfunktion. Beweis. Seien det, det0 : Mn,n (K) → K Determinantenfunktionen. Wir zeigen, dass beide Abbildungen identisch sind, d.h. für alle A ∈ Mn,n (K) gilt det A = det0 A. Für rang A < n gilt mit (D3’) det A = det0 A = 0. Sei also rang A = n. Da A vollen Rang hat, benötigt der Gauß-Algorithmus keine Spaltenvertauschungen, kommt also nur mit Zeilenvertauschungen aus; denn würde bei der Transformation von A eine Spalte mit ar,r = ar+1,r = . . . = an,r = 0 auftreten (und nur dann ist eine Spaltenvertauschung notwendig), wäre rang A < n. Aus der transformierten Matrix A0 des Gauß-Verfahrens erhalten wir durch weitere elementare Zeilentransformationen eine Diagonalmatrix A00 : 0 0 a11 ∗ · · · ∗ a11 0 · · · 0 .. .. 0 ... ... elementare 0 ... ... . . Gauß0 00 −−−−−−−→ A = A −−−−−−−→ A = . . .. .. .. .. Algorithmus .. .. . . . . ∗ Zeilentransf. 0 0 · · · 0 a0nn 0 · · · 0 a0nn Da diese Transformationen den Rang unverändert lassen, gilt rang A00 = n. Wir betrachten die Auswirkungen auf die Determinante von A, wobei s ∈ N die Anzahl der 3. Permutationen und Leibniz’sche Determinantenformel 95 Zeilenvertauschungen im Gauß-Verfahren sei. Es gilt det A (D1),(D4) = (−1)s det A0 (D1) (−1)s det A00 (D2) (−1)s a11 · · · ann det In (D3) (−1)s a11 · · · ann , = = = sowie det0 A (D1),(D4) = (−1)s det0 A0 (D1) (−1)s det0 A00 (D2) (−1)s a11 · · · ann det0 In (D3) (−1)s a11 · · · ann . = = = Wir erhalten det A = det0 A. Aus der Leibniz’sche Determinantenformel, die wir in Satz 9.25 auf Seite 97 beweisen, folgt, dass die Determinantenfunktion auch existiert. Da die Determinantenfunktion jeder quadratischen Matrix A genau einen Wert det A zuordnen, sprechen wir von der Determinante der Matrix A. Mit dem Wissen der Existenz lassen sich weitere Aussagen aus dem Beweis von Satz 9.12 ableiten: Korollar 9.13 (Determinante einer Diagonalmatrix). Sei D ∈ Mn,n (K) eine Diagonalmatrix mit Diagonalelementen d11 , . . . , dnn . Dann gilt: n Y det D = dii = d11 · · · dnn . i=1 Ferner erhalten wir folgendes Invertierbarkeitskriterium für Matrizen: Korollar 9.14. Für quadratische Matrizen A ∈ Mn,n (K) sind die folgenden Aussagen äquivalent: a) A ∈ GLn (K), d.h. A ist invertierbar. b) rang A = n. c) det A 6= 0. Wir können die Determinante effizient berechnen: Korollar 9.15. Mit dem Gauß-Algorithmus läßt sich die Determinante einer n × n Matrix in O(n3 ) Schritten berechnen. 3. Permutationen und Leibniz’sche Determinantenformel Um die Existenz der Determinantenfunktion zu zeigen, befassen wir uns mit Permutationen und ihren Eigenschaften. Eine Permutation ist eine bijektive Abbildung einer Menge in sich. Da die Benennung der Mengenelemente hier keine Rolle spielt, 96 9. Volumina und Determinanten betrachten wir O.B.d.A. Abbildungen der Menge {1, 2, . . . , n} ⊂ N in sich. Die Menge aller Permutationen auf {1, . . . , n} bezeichnet man mit Sn . Die Mächtigkeit von Sn , d.h. die Anzahl der Permutationen, ist n! = n · (n − 1) · · · 2 · 1 (Fakultät von n). Zusammen mit der Hintereinanderausführung (Konkatenation) als Operation ist Sn eine Gruppe: Def inition 9.16 (Symmetrische Gruppe Sn ). Für X = {1, . . . , n} heißt Sn := {σ ∈ Abb(X, X) | σ bijektiv } die symmetrische Gruppe Sn . Die Konkatenation von Permutationen bezeichnet man als Produkt von Permutationen. Wir kennzeichnen besonders einfache Arten von Permutationen: Def inition 9.17 (Transposition, Nachbartransposition). Eine Permutation, die nur zwei Elemente vertauscht, heißt Transposition. Eine Transposition, die zwei aufeinanderfolgende Elemente i und i + 1 vertauscht, heißt Nachbartransposition. Man bezeichnet für i 6= j die Transposition, welche i und j vertauscht, mit (i, j). Eine Nachbartransposition ist entsprechend eine Transposition der Form (i, i + 1). Offenbar ist jede Permutation als Produkt von Transpositionen darstellbar. Da sich jede Transposition als Produkt von Nachbartranspositionen darstellen läßt (man tauscht das kleinere“ Element solange nach oben“, bis es an seinem Platz angekom” ” men ist), gilt: Satz 9.18. Jede Permutation läßt sich als Produkt von Nachbartranspositionen darstellen. Def inition 9.19 (Fehlstand). Sei σ ∈ Sn und i, j ∈ {1, . . . , n}. Dann heißt ein Paar (i, j) mit i<j und σ(i) > σ(j) ein Fehlstand von σ. Die Anzahl der Fehlstände von σ bezeichnen wir mit f (σ) := |{(i, j) | i < j und σ(i) > σ(j) }| . Für die Anzahl der Fehlstände von Transpositionen und Nachbartranspositionen gilt: Lemma 9.20. Sei σ = (i, j) ∈ Sn eine Transposition mit i < j und τ ∈ Sn eine Nachbartransposition. Dann gilt: a) f (σ) = 2(j − i − 1) + 1. b) f (τ σ) = f (σ) ± 1. Beweis. Sei σ = (i, j) ∈ Sn Transposition mit i < j und τ ∈ Sn Nachbartransposition. Die Fehlstände von σ sind • (i, x) mit i < x < j • (y, j) mit i < y < j • (i, j). 3. Permutationen und Leibniz’sche Determinantenformel 97 Damit ergeben sich insgesamt j − i − 1 + j − i − 1 + 1 = 2(j − i − 1) + 1 Fehlstände. Die zweite Behauptung wird in Übungsaufgabe 12.4 gezeigt. Mit den beiden Aussagen aus Lemma 9.20 charakterisieren wir eine Klasse von Transpositionen: Korollar 9.21. Sei σ ∈ Sn . Dann sind folgende Aussagen äquivalent: a) f (σ) ist gerade. b) Sind τ1 , . . . , τn Nachbartranspositionen mit σ = τ1 · · · τn , so ist n gerade. c) σ ist Produkt einer geraden Anzahl von Nachbartranspositionen. Korollar 9.21 läßt sich auch für ungerade Anzahlen von Fehlständen formulieren. Wir nennen eine Permutation gerade bzw. ungerade, wenn die Anzahl ihrer Fehlstände gerade bzw. ungerade ist und ordnen ihr ein entsprechendes Vorzeichen (Signum) zu: Def inition 9.22 (Signum). Sei σ ∈ Sn eine Permutation. Dann heißt sig(σ) := (−1)f (σ) ∈ {−1, +1} das Signum von σ. Wir nennen σ gerade, falls f (σ) gerade ist und ungerade, falls f (σ) ungerade ist. Die geraden Permutationen bilden eine Untergruppe von Sn , die sogenannte alternierende Gruppe: Def inition 9.23 (Alternierende Gruppe). Wir nennen An := {σ ∈ Sn | σ gerade} = sig−1 (+1) die alternierende Gruppe. Weil die Abbildung ψ : An → Sn \ An , τ 7→ στ bijektiv ist, folgt: Lemma 9.24. Sei σ ∈ Sn \ An . Dann gilt Sn = An ∪ σAn = An ∪ {στ | τ ∈ An } , und es ist |An | = 21 n!. Eine Formel zur Berechnung der Determinante wurde bereits 1690 von Leibniz2 entwickelt. Ihre Bedeutung liegt jedoch nicht in der Berechnung konkreter Determinanten, sondern in ihrer Rolle in Beweisen. Satz 9.25 (Leibniz’sche Determinantenformel). Sei A = (aij ) ∈ Mn,n (K). Dann gilt X det A = sig(σ)a1,σ(1) · · · an,σ(n) . σ∈Sn 2Gottfried Wilhelm Leibniz, 1646-1716. Bedeutender Naturwissenschaftler und Philosoph. Mitbegründer der Infinitesimalrechnung. 98 9. Volumina und Determinanten Insbesondere folgt aus Satz 9.25 die Existenz der Determinantenfunktion. Für n = 2 liefert die Leibniz’sche Determinantenformel: a b det = ad(−1)0 + bc(−1)+1 = ad − bc. c d Die folgende Regel für n = 3 ist auch als Sarrus’sche Regel 3 bekannt: a11 a12 a13 a11 a22 a33 + a12 a23 a31 + a13 a21 a32 det a21 a22 a23 = −a13 a22 a31 − a23 a32 a11 − a33 a12 a21 . a31 a32 a33 Man erhält sie aus den 3! = 6 in der Leibniz-Formel auftretenden Permutationen. Eine Merkregel dafür lautet Hauptdiagonalen (&) minus Nebendiagonalen (.)“: ” a11 a12 a13 a11 a12 a11 a12 a13 a11 a12 a21 a22 a23 a21 a22 a21 a22 a23 a21 a22 a31 a32 a33 a31 a32 a31 a32 a33 a31 a32 | {z } |{z} | {z } a11 a22 a33 +a12 a23 a31 +a13 a21 a32 − (a13 a22 a31 +a23 a32 a11 +a33 a12 a21 ) Für Dreiecksmatrizen erhalten wir die aus Korollar 9.13 auf Seite 95 bekannte Formel a11 ∗ · · · ∗ .. Y n 0 ... ... . = det aii , .. .. .. . . . ∗ i=1 0 · · · 0 ann denn für alle Permutationen σ ∈ Sn außer der Identität gibt es ein i mit σ(i) < i und somit ai,σ(i) = 0. Beweis. Wir beweisen die Leibniz’sche Determinantenformel, Satz 9.25, durch Nachweis der Eigenschaften (D1)–(D3) für X det : Mn,n (K) → K, A 7→ sig(σ)a1,σ(1) · · · an,σ(n) . σ∈Sn Sei A ∈ Mn,n (K) Matrix mit Zeilenvektoren z1 , . . . , zn ∈ M1,n (K). (D1) Wir zeigen zuerst, dass det“ in jeder Zeile linear ist: ” z1 z1 z1 .. .. .. . . . det zi + λzj = det zi + λ det zj .. .. .. . . . zn zn zn Dies folgt, da für jede Permutation σ ∈ Sn gilt: a1,σ(1) · · · (aj,σ(j) + λaj,σ(j) ) · · · an,σ(n) = a1,σ(1) · · · aj,σ(j) · · · an,σ(n) + a1,σ(1) · · · λaj,σ(i) · · · an,σ(n) . 3Pierre-Frédéric Sarrus, 1798–1858. 4. Eigenschaften 99 Bleibt zu zeigen, dass det A0 = 0 für z1 .. . zj 0 A = ... ∈ Mn,n (K). zj .. . zn Die Matrix A0 enthält die Zeile zj zweimal, nämlich in der i-ten und in der j-ten Zeile. Sei τ = (i, j) ∈ Sn diejenige Transposition, welche i und j vertauscht. O.B.d.A. gelte i < j. Laut Lemma 9.24 stellt Sn = An ∪ An τ eine Zerlegung (Partition) von Sn dar. Jede Permutation σ ∈ Sn ist entweder gerade (σ ∈ An ) oder von der Form σ 0 τ mit σ = σ 0 τ , σ 0 ∈ An . Damit gilt: X det A0 = sig(σ)a01,σ(1) · · · a0n,σ(n) σ∈Sn = X sig(σ)a01,σ(1) · · · a0n,σ(n) + sig(στ )a01,στ (1) · · · a0n,στ (n) . σ∈An σ∈An Mit sig σ = 1 und X sig σ 0 τ = −1 folgt: det A0 X X a01,σ(1) · · · a0n,σ(n) − a01,στ (1) · · · a0i,στ (i) · · · a0j,στ (j) · · · a0n,στ (n) = σ∈An σ∈An = X a01,σ(1) · · · a0n,σ(n) − σ∈An X a01,σ(1) · · · a0i,σ(j) · · · a0j,σ(i) · · · a0n,σ(n) σ∈An = 0. Die Leibniz’sche Determinantenformel ist linear in jeder Zeile. (D2) Mit gleichem Argument wie in (D1) (Linearität in jeder Zeile) folgt auch (D2). (D3) Für die Einheitsmatrix gilt, dass es zu jeder Permutation σ ∈ Sn außer der Identität ein i gibt mit σ(i) 6= i und damit ai,σ(i) = 0. Also ist det In = a11 · · · ann = 1. Aus Satz 9.12 über die Eindeutigkeit der Determinantenfunktion folgt die Behauptung. 4. Eigenschaften Wir beschäftigen uns mit weiteren Eigenschaften der Determinantenfunktion. Zuerst zeigen wir, dass alle bisherigen Aussagen auch für die Spalten einer Matrix gelten: Satz 9.26. Es gilt det A = det AT . 100 9. Volumina und Determinanten Beweis. Sei A ∈ Mn,n (K), σ ∈ Sn . Da Permutationen bijektiv sind, gilt in der Leibnizformel aus Satz 9.25 auf Seite 97: a1,σ(1) · · · an,σ(n) = aσ−1 (1),1 · · · aσ−1 (n),n . Für das Vorzeichen gilt sig(σ) = sig(σ −1 ). Aus X X det A = aσ−1 (1),1 · · · aσ−1 (n),n sig(σ −1 ) = aσ(1),1 · · · aσ(n),n sig(σ) = det AT σ −1 ∈Sn σ∈Sn folgt die Behauptung. Korollar 9.27. Die Eigenschaften (D1)-(D5) der Determinantenfunktion gelten analog für die Spalten einer Matrix. Die Streichungsmatrix Matrix a11 · · · a1j .. .. . . a · · · a A0ij := ij i1 .. .. . . an1 · · · anj A0ij ∈ Mn−1,n−1 (K) zu A = (aij ) ∈ Mn,n (K) ist erkärt als die ··· ··· ··· a1,1 a1n .. .. . . ai−1,1 ain = .. ai+1,1 . . .. ann an,1 ··· ··· ··· a1,j−1 .. . a1,j+1 .. . ··· ai−1,j−1 ai−1,j+1 · · · ai+1,j−1 ai+1,j+1 · · · .. .. . . ··· an,j−1 an,j+1 ··· ann .. . ai−1,n , ai+1,n .. . an,n die durch Streichen der i-ten Zeile und j-ten Spalte in A entsteht. Durch Umstellung der Leibniz’schen Determinantenformel erhält man den Satz von Laplace4: Satz 9.28 (Entwicklungssatz von Laplace). Sei A = (aij ) ∈ Mn,n (K). Dann gilt: a) Entwicklung nach der i-ten Zeile: det A = n P (−1)i+j aij det A0ij . j=1 n P b) Entwicklung nach der j-ten Spalte: det A = i=1 (−1)i+j aij det A0ij . Der Entwicklungssatz reduziert den Rechenaufwand nicht notwendigerweise, denn es treten n Determinanten der Größe n − 1 auf; berechnet man diese mit der Leibniz’schen Determinantenformel, so ergeben sich die n(n − 1)! = n! Permutationen der Leibnizformel für die ursprüngliche Matrix. Durch eine geschickte Wahl der Zeile bzw. Spalte, nach der man entwickelt, kann man die Determinante effizienter berechnen (man wähle beispielsweise Zeilen oder Spalten mit vielen Nullen). Sei K ein Körper und a1 , . . . , an ∈ K. In einem Induktionsbeweis zeigt man mit Hilfe geschickter Zeilenoperationen und des Entwicklungssatzes von Laplace für die 4Pierre Simon Laplace, 1749–1827, war ein bedeutender französischer Mathematiker und Na- turforscher. Er verfaßte wichtige Arbeiten auf den Gebieten der Wahrscheinlichkeitsrechnung, wo er die sogenannte Laplace-Transformation einführte, und der Astronomie. In seinem Hauptwerk, der fünfbändigen Mécanique céleste“ ( Himmelsmechanik“), finden sich Untersuchungen zu Kugelfunk” ” tionen, konfokalen Flächen zweiter Ordnung, der sogenannten Laplace-Gleichung, zur Potentialtheorie und zu partiellen Differentialgleichungen. Durch seinen politischen Opportunismus brachte er es bis zum Marquis und Pair von Frankreich. 4. Eigenschaften 101 Vandermonde-Matrix (Übungsaufgabe 11.1): 1 1 ··· a1 a2 det Vn (a1 , . . . , an ) = det .. .. . . n−1 an−1 a ··· 1 2 1 an .. . ann−1 Y (ai − aj ) . = i>j Vergleiche das Resultat mit Korollar 4.31 auf Seite 56. Def inition 9.29 (Minor). nennen wir a1,1 .. . ai−1,1 Aij := 0 ai+1,1 .. . Zu einer quadratischen Matrix A = (aij ) ∈ Mn,n (K) an,1 ··· ··· ··· ··· ··· a1,j−1 .. . 0 .. . ··· a1,j+1 .. . ··· ··· ··· ai−1,j−1 0 ai−1,j+1 0 1 0 ai+1,j−1 0 ai+1,j+1 .. .. .. . . . an,j−1 0 an,j+1 ··· a1,n .. . ai−1,n 0 ai+1,n .. . an,n Minor von A. Def inition 9.30 (Adjunkte). Zu einer quadratischen Matrix A = (aij ) ∈ Mn,n (K) nennen wir det A11 · · · det An,1 .. .. T adj(A) := = (det Aji ) = (det Aij ) . . det A1,n · · · det An,n die Adjunkte (auch komplementäre Matrix) von A. Lemma 9.31. Sei A ∈ Mn,n (K). Dann gilt: a) A · adj(A) = det(A) · In . b) Falls A regulär, dann A−1 = adj(A) det A . Beweis. Sei A ∈ Mn,n (K). Für die Komponenten von A · adj(A) gilt mit dem Entwicklungssatz von Laplace 9.28: X n A · adj(A) = aik det Ajk = k=1 n X k=1 = X n k=1 1≤i,j≤n aik X n j+` (−1) ·0· det A0j` j+k + (−1) `=1,`6=k aik (−1)j+k det A0jk ·1· det A0jk ! 1≤i,j≤n (16) 1≤i,j≤n Für den Eintrag (i, j) der Matrix A · adj(A) gilt: ( det A falls i = j A · adj(A) i,j = 0 falls i 6= j 102 9. Volumina und Determinanten Der erste Fall folgt aus Satz 9.28, denn für i = j ist Gleichung (16) gerade die Entwicklung nach der i-ten Zeile. Für den zweiten Fall sei a1,1 · · · a1,n .. .. . . ai,1 ··· ai,n .. .. . . Ā := aj−1,1 · · · aj−1,n ∈ Mn,n (K) ai,1 ··· ai,n aj+1,1 · · · aj+1,n .. .. . . an,1 · · · an,n die Matrix, welche aus A entsteht, wird die j-te Zeile durch die i-te Zeile ersetzt. Entwicklung nach der j-ten Zeile liefert det Ā = n X (−1)j+k aik det A0jk = 0, k=1 denn Ā hat zwei gleiche Zeilen (und damit ist rang Ā < n). Die zweite Aussage folgt mit Division durch det A direkt aus der ersten. Aus Lemma 9.31 folgt, dass man für reguläre Matrizen die Lösung der dazugehörigen linearen Gleichunggsysteme angeben kann, wenn die Determinante und die Adjunkte der Matrix bekannt sind: Korollar 9.32 (Cramer’sche Regel). Sei A ∈ Mn,n (K) invertierbar und b ∈ Kn . Dann gilt für die Lösung von Ax = b: x= adj(A) ·b det A n xj = 1 X det Aij bi . det A i=1 Für die Berechnung dieser Lösung auf Computern sind Abschätzungen der Größen der auftretenden Zahlen von Bedeutung. Eine solche Abschätzung für x lautet: Korollar 9.33. Sei A = (aij ) ∈ Mn,n (K) invertierbar und b ∈ Kn sowie |aij | , |bi | ≤ B für 1 ≤ i, j ≤ n. Dann gilt für die Lösung von Ax = b nn B n |xi | ≤ , det A insbesondere ist |xi | ≤ nn B n für ganzzahlige A, b. Beweis. Die Abschätzung folgt aus Korollar 9.32, |bi | ≤ B und |det Aij | ≤ (n − 1)!B n−1 . Letzteres ergibt sich aus der Leibnizformel, denn entwickelt man Aij nach der i-ten Zeile, so treten für die resultierende Matrix A0ij genau (n − 1)! Permutationen von je n − 1 Matrixeinträgen in der Leibnizformel auf. Eine wichtige Eigenschaft der Determinante ist ihre Multiplikativität. 4. Eigenschaften 103 Satz 9.34 (Multiplikativität der Determinante). Seien A, B ∈ Mn,n (K). Dann gilt: det(A · B) = det A · det B. Beweis. Falls eine oder beide Matrizen nicht vollen Rang haben, ist det A = 0 oder det B = 0 und somit det A · det B = 0. Nach Übungsaufgabe 8.3 gilt rang(AB) < n und die Behauptung folgt. Wir setzen voraus im weiteren voraus, dass beide Matrizen vollen Rang haben. Nach Beweis von Satz 9.12 auf Seite 94 läßt sich A durch elementare Zeilenoperationen (insbesondere ohne Spaltenvertauschungen) in die Einheitsmatrix überführen. Damit gibt es Elementarmatrizen T1 , . . . , Tt ∈ Mn,n (K), so dass Tt Tt−1 · · · T1 A = In . Da Elementarmatrizen invertierbar sind, ist A = T1−1 · · · Tt−1 . Wir zeigen, dass für jede Elementarmatrix Ti−1 gilt det(Ti−1 B) = det Ti−1 det B (17) und die Behauptung folgt. Wir betrachten die drei Typen von Elementarmatrizen: • Für Tij (λ) gilt mit (D1), dass det Tij (λ) = det In = 1 und Gleichung (17) folgt. • Für Ti (λ) gilt mit (D2), dass det Ti (λ) = λ det In = λ und Gleichung (17) folgt. • Für Vij folgt Gleichung (17) aus (D4). Dies war zu zeigen. Auch über die Determinante von Matrizen einer bestimmten Gestalt kann man Aussagen treffen, beispielsweise über die Determinante von Kastenmatrizen: Lemma 9.35. Seien A1 , . . . , At Matrizen über A1 0 ··· 0 . .. 0 A . .. 2 det . .. .. . . . 0 . 0 · · · 0 At K. Dann gilt t Y det Ai = i=1 Beweis. Die Behauptung folgt aus der Leibniz’schen Determinantenformel, denn alle Permutationen, die Matrixeinträge enthalten, die gleich Null sind, tragen zur Summe, also der Determinante, nichts bei. Bleiben nur diejenigen Permutationen übrig, die lediglich Einträge innerhalb der Ai vertauschen. Dies sind aber die Permutationen von det A1 , . . . , det At . Da die Addition des skalaren Vielfachen einer Zeile zu einer anderen Zeile die Determinante nicht ändert, gilt: 104 9. Volumina und Determinanten Satz 9.36 (Kästchensatz). Seien A1 , . . . , At Matrizen über K. Dann gilt A1 ∗ ··· ∗ . Y .. t 0 A . .. 2 det . det Ai = .. .. . . . ∗ i=1 . 0 · · · 0 At Im allgemeinen gilt jedoch für Matrizen A, B, C, D ∈ Mn,n (K): A B det 6= det A · det D − det B · det C. C D Kapitel 10 Normalformen und Eigenwerte Wir haben in Kapitel 6 gesehen, dass jede lineare Abbildung durch eine Matrix darstellbar ist. In diesem Abschnitt leiten wir durch geeignete Basenwahl einfache bzw. kanonische Darstellungsmatrizen her. 1. Eigenwerte und Eigenvektoren Wir fassen diejenigen Matrizen zu Klassen zusammen, die den gleichen Endomorphismus bezüglich verschiedener Basen des Kn darstellen. Man definiert dazu die folgende Äquivalenzrelation: Def inition 10.1 (Ähnliche Matrizen). Zwei Matrizen A, B ∈ Mn,n ( K ) heißen ähnlich, A ∼ B, wenn es eine invertierbare Matrix T ∈ GLn (K) gibt mit A = T −1 BT. Die Ähnlichkeitsrelation ist eine Äquivalenzrelation (siehe Definition 2.30 auf Seite 28): Satz 10.2. Die Ähnlichkeitsrelation ist eine Äquivalenzrelation auf Mn,n (K). Beweis. Seien A, B, C ∈ Mn,n (K). Wir zeigen die Eigenschaften einer Äquivalenzrelation: Aus A = In−1 AIn = In AIn = A folgt die Reflexivität: A ∼ A. Sei A ∼ B, d.h. A = T BT −1 . Dann gilt T −1 AT = B, also B ∼ A, so dass die Ähnlichkeitsrelation die Symmetrie-Eigenschaft A ∼ B ⇐⇒ B ∼ A erfüllt. Zu zeigen bleibt die Transitivität: Aus (A ∼ B) und (B ∼ C) folgt A ∼ C. Sei A = T BT −1 und B = SCS −1 . Dann gilt A = T BT −1 = T SCS −1 T −1 = (T S)C(T S)−1 . Nach Satz 5.5 auf Seite 61 sind T S und (T S)−1 regulär, so dass A ∼ C. 105 106 10. Normalformen und Eigenwerte Wir zeichnen diejenigen linearen Abbildungen aus, die sich — bei geeigneter Basiswahl — durch möglichst einfache Matrizen darstellen lassen: Def inition 10.3 (Diagonalisierbarkeit). Eine quadratische Matrix heißt diagonalisierbar, wenn sie zu einer Diagonalmatrix ähnlich ist. Eine lineare Abbildung heißt diagonalisierbar, wenn es eine Basis gibt, so dass ihre Darstellungsmatrix eine Diagonalmatrix ist. Zur Untersuchung der Diagonalisierbarkeit verwenden wir Eigenwerte und Eigenvektoren. Dabei handelt es sich um Vektoren, bei denen eine lineare Abbildung einer Multiplikation mit einem Skalar (einem Eigenwert) entspricht. Die Eigenvektoren sind also diejenigen Vektoren, die von der linearen Abbildung gestreckt werden. Def inition 10.4 (Eigenwert, Eigenvektor). Sei A ∈ Mn,n (K) eine quadratische Matrix. Dann nennen wir einen Skalar λ ∈ K einen Eigenwert von A, wenn es einen Vektor v ∈ Kn \ {0} gibt mit Av = λv. Ein solcher Vektor v heißt ein Eigenvektor von A zum Eigenwert λ. Man beachte, dass Null ein Eigenwert sein kann, ein Eigenvektor jedoch stets vom Nullvektor verschieden ist. Nicht jede Matrix ist diagonalisierbar. So ist beispielsweise die folgende, JordanKästchen genannte Matrix, nicht diagonalisierbar: λ 0 ··· ··· 0 .. 1 . . . . . . . . 0 . . . . . . . . . .. .. . . .. .. . . 0 . . 0 ··· 0 1 λ Wir leiten ein Kriterium zur Diagonalisierbarkeit her: Satz 10.5. Eine quadratische Matrix A ∈ Mn,n (K) ist genau dann diagonalisierbar, wenn es eine Basis des Kn aus Eigenvektoren von A gibt. Beweis. Zu jeder Diagonalmatrix gibt es eine Basis des Kn bestehend aus Eigenvektoren, denn die Diagonalmatrix λ1 0 · · · 0 . 0 . . . . . . .. ∈ Mn,n (K) D := .. . . .. . . . 0 0 · · · 0 λn hat die Eigenwerte λ1 , . . . , λn mit den dazugehörigen Eigenvektoren e1 , . . . , en ∈ Kn , also den kanonischen Einheitsvektoren. Sei A ∈ Mn,n (K) regulär. Beim Übergang von A zu einer ähnlichen Matrix T −1 AT übertragen sich die Eigenwerte und Eigenvektoren von A: Ist bi ∈ Kn Eigenvektor zum Eigenwert λi ∈ K von A, also Abi = λi bi , dann ist T −1 bi ein Eigenvektor 1. Eigenwerte und Eigenvektoren 107 von T −1 AT zum Eigenwert λi : T −1 AT (T −1 bi ) = T −1 Abi = T −1 λi bi = λi (T −1 bi ). Damit bildet b1 , . . . , bn ∈ Kn eine Basis des Kn bestehend aus Eigenvektoren von A genau dann, wenn T −1 b1 , . . . , T −1 bn ∈ Kn eine Basis des Kn aus Eigenvektoren der ähnlichen Matrix T −1 AT ist. Weil die Diagonalisierbarkeit von A äquivalent zur Ähnlichkeit zu einer Diagonalmatrix ist, folgt die Behauptung. Aus dem nächsten Satz folgt, dass eine n × n Matrix höchstens n paarweise verschiedene Eigenwerte hat: Satz 10.6. Sei A ∈ Mn,n (K). Dann sind Eigenvektoren b1 , . . . , bm ∈ Kn von A zu paarweise verschiedenen Eigenwerten λ1 , . . . , λm ∈ K linear unabhängig über K. Beweis. Wir führen den Beweis durch vollständige Induktion nach m: • Zur Induktionsverankerung sei m = 1 und b1 Eigenvektor von A. Wegen b1 6= 0 ist b1 linear unabhängig. • Der Induktionsschritt erfolgt von m − 1 nach m. Seien b1 , . . . , bm ∈ Kn Eigenvektoren zu den paarweise verschiedenen Eigenwerten λ1 , . . . , λm ∈ K von A. Es ist zu zeigen, dass b1 , . . . , bm linear unabhängig sind: m X ti bi = 0 =⇒ (t1 , . . . , tm ) = 0. i=1 Sei Pm i=1 ti bi = 0. Dann ist A m X ti bi = i=1 O.B.d.A. sei λm 6= 0. Aus m X i=1 m X ti Abi = m X ti λi bi = 0. i=1 i=1 Pm Pm i=1 ti bi = λm i=1 ti bi erhalten m X ti λ i bi = wir: λ m ti bi , i=1 so dass: m X i=1 (ti λi − ti λm )bi = m−1 X i=1 (t λ − t λ ) b = 0. | i i {z i m} i ∈K Da nach Induktionsvoraussetzung b1 , . . . , bm−1 linear unabhängig sind, gilt ti λi = ti λm für i = 1, . . . , m − 1. Nach Voraussetzung sind die Eigenwerte λ1 , . . . , λm paarweise verschieden und es folgt t1 = . . . = tm−1 = 0 und damit tm = 0. Dies war zu zeigen. Aus Satz 10.5 folgt: Korollar 10.7 (Diagonalisierbarkeitskriterium). Jede n × n Matrix mit n paarweise verschiedenen Eigenwerten ist diagonalisierbar. 108 10. Normalformen und Eigenwerte Die Matrix 01 10 hat die Eigenwerte 1 und −1 mit den Eigenvektoren 11 und +1 1 0 01 −1 . Somit gilt 1 0 ∼ 0 −1 . Die Umkehrung von Korollar 10.7 gilt nicht; eine diagonalisierbare Matrix kann weniger als n paarweise verschiedene Eigenwerte haben: Die Matrix 1 1 −1 2 2 3 1 1 1 1 1 2 0 0 2 1 1 3 − A = 2 4 2 = −1 0 2 0 2 0 4 4 ∈ M3,3 (R) 4 1 1 1 1 1 3 0 −1 1 0 0 6 4 4 4 ist diagonalisierbar, hat jedoch nur zwei Eigenwerte: • Eigenwert 2 mit Eigenvektoren (1, −1, 0)T und (1, 0, −1)T . • Eigenwert 6 mit Eigenvektor (1, 2, 1)T . Lemma 10.8. Sei A ∈ Mn,n (K). Paarweise verschiedene λ1 , . . . , λn ∈ K sind genau dann Eigenwerte zu A, falls A ähnlich zu einer Diagonalmatrix D ∈ Mn,n (K) mit Diagonalelementen λ1 , . . . , λn ist: λ1 0 · · · 0 . 0 . . . . . . .. . A∼. . . . . . . . . 0 0 · · · 0 λn Beweis. Sei D ∈ Mn,n (K) die in Lemma angegebene Diagonalmatrix mit λ1 , . . . , λn als Diagonalelementen. Hat A die paarweise verschiedenen Eigenwerte λ1 , . . . , λn , so ist A mit Korollar 10.7 diagonalisierbar. Nach dem Beweis von Satz 10.5 übertragen sich die Eigenwerte und die Diagonalmatrix hat obige Gestalt. Ist umgekehrt A ähnlich zu D, übertragen sich die Eigenwerte von D auf A. Die Eigenwerte von D sind gerade λ1 , . . . , λn . Eine Matrix A ∈ Mn,n (K) kann höchstens n Eigenwerte, aber wesentlich mehr Eigenvektoren haben. Für einen Eigenvektor v ∈ Kn zum Eigenwert λ ∈ K sind auch alle skalaren Vielfachen µv von v Eigenvektoren von A: A(µv) = µAv = µλv = λ(µv) Die Summe zweier Eigenvektoren v1 , v2 ∈ Kn zum gleichen Eigenwert λ von A ist ebenfalls ein Eigenvektor: A(v1 + v2 ) = Av1 + Av2 = λv1 + λv2 = λ(v1 + v2 ) Die Menge aller Eigenvektoren zu einem Eigenwert einer Matrix und der Nullvektor bilden nach Lemma 3.5 einen Untervektorraum von Kn , den sogenannten Eigenraum von A zum Eigenwert λ: Def inition 10.9 (Eigenraum). Sei A ∈ Mn,n (K) und λ ∈ K Eigenwert von A. Dann nennen wir Eig(A, λ) := {v ∈ Kn | Av = λv } den zugehörigen Eigenraum. 1. Eigenwerte und Eigenvektoren 109 Der Eigenraum von A und λ besteht also aus allen Eigenvektoren von A zu λ sowie dem Nullvektor (der per Definition kein Eigenvektor ist). Lemma 10.10. Sei A ∈ Mn,n (K) und λ1 , . . . , λm paarweise verschiedene Eigenwerte von A. Dann gilt a) m X Eig(A, λi ) ∼ = i=1 b) dim m M Eig(A, λi ). i=1 m X Eig(A, λi ) = i=1 m X dim Eig(A, λi ). i=1 Beweis. Sei A ∈ Mn,n (K) und λ1 , . . . , λn paarweise verschiedene Eigenwerte von A. Um zu zeigen, dass die Summe der Eigenräume isomorph zur inneren P direkten Summe der Eigenräume ist, genügt der Nachweis, dass jeder Vektor u ∈ m i=1 Eig(A, λi ) eine eindeutige Darstellung u = u1 + . . . + um mit ui ∈ Eig(A, λi ) hat. Zur Eindeutigkeit der Darstellung äquivalent ist die Aussage Eig(A, λi ) ∩ m X Eig(A, λj ) = {0} für i = 1, . . . , m. j=1 j6=i P Sei ui ∈ Eig(A, λi ) mit ui = j6=i uj und uj ∈ Eig(A, λj ). Nach Satz 10.6 sind u1 , . . . , um linear unabhängig. Andererseits gilt ui = m X uj j=1 j6=i ⇐⇒ ui − m X uj = 0. j=1 j6=i Also ist uj = 0 für j = 1, . . . , m, j 6= i und die Behauptung folgt. Die zweite Aussage fogt in Verbindung mit der ersten Behauptung und Übungsaufgabe 10.4. Wir erhalten als Kriterium für Diagonalisierbarkeit: Satz 10.11. Eine Matrix A ∈ Mn,n (K) mit paarweise verschiedenen Eigenwerten λ1 , . . . , λm ist genau dann diagonalisierbar, wenn m X dim Eig(A, λi ) = n. i=1 Beweis. Wir zeigen beide Richtungen: P ⇒“ A ist diagonalisierbar ⇒ m i=1 dim Eig(A, λi ) = n. ” Da A diagonalisierbar ist, gibt es eine reguläre Matrix T ∈ Mn,n (K) mit λ1 0 · · · 0 . .. .. . . .. −1 −1 0 T. A = T DT = T . . . . . . . . . 0 0 · · · 0 λn 110 10. Normalformen und Eigenwerte Dabei können einzelne λi mehrfach auftreten, denn A hat nach Voraussetzung m ≤ n paarweise verschiedene Eigenwerte. Die kanonischen Einheitsvektoren e1 , . . . , en ∈ Kn sind Eigenvektoren zu D und damit bilden T −1 e1 , . . . , T −1 en eine Basis des Kn aus linear unabhängigen Eigenvektoren von A. Pm ⇐“ i=1 dim Eig(A, λi ) = n ⇒ A ist diagonalisierbar. ” Nach Voraussetzung gibt es eine Basis b1 , . . . , bn ∈ Kn des Kn aus Eigenvektoren von A. Sei T c1 .. −1 B = (b1 · · · bn ) ∈ Mn,n (K) und B = . ∈ Mn,n (K) cTn mit c1 , . . . , cn ∈ Mn,1 (K). Dann gilt In = B −1 B = (cTi bj )1≤i,j≤n = (δij )1≤i,j≤n . Aus B −1 AB = B −1 Ab1 · · · Abn = B −1 λ1 b1 · · · λm bn folgt: B −1 AB = (cTi λj bj )1≤i,j≤n λ1 0 = .. . 0 0 .. . .. . ··· ··· .. . .. . 0 0 .. . . 0 λm Dabei können einzelne λi mehrfach auftreten. Dies war zu zeigen. 2. Charakteristisches Polynom Das charakteristische Polynom einer Matrix erlaubt es, die Eigenwerte einer linearen Abbildung zu bestimmen. Def inition 10.12 (Charakteristisches Polynom). Zu einer quadratischen Matrix A ∈ Mn,n (K) heißt a1,1 − X a1,2 ··· a1,n .. .. .. a2,1 . . . ∈ K[X] χA (X) := det(A − XIn ) = det .. .. .. . . . an−1,n an,1 · · · an,n−1 an,n − X das charakteristische Polynom von A. Berechnen wir die Determinante det(A − XIn ) nach der Leibniz-Formel, Satz 9.25 auf Seite 97, erhält man das charakteristisches Polynom in Form einer Summe von n! 2. Charakteristisches Polynom 111 Polynomen: n Y X det(A − XIn ) = (aii − X) + qσ i=1 mit qσ ∈ K[X]n−1 . σ∈Sn \Id Der Grad des charakteristischen Polynoms zu einer n × n-Matrix ist daher n. Das charakteristische Polynom einer linearen Abbildung ist das charakteristische Polynom einer Darstellungsmatrix dieser Abbildung. Diese Festlegung ist wohldefiniert, denn zwei Darstellungsmatrizen einer linearen Abbildung haben als ähnliche Matrizen das gleiche charakteristische Polynom: Lemma 10.13. Seien A, B ∈ Mn,n (K) mit A ∼ B. Dann gilt χA (X) = χB (X). Beweis. Seien A, B, T ∈ Mn,n (K) mit T regulär und B = T −1 AT . Es gilt χB (X) = det(T −1 AT − XIn ) = det(T −1 AT − XT −1 T ) = det(T −1 (A − XIn )T ) = det T −1 det(A − XIn ) det T. Mit det T −1 = 1 det T folgt die Behauptung. Def inition 10.14 (Charakteristisches Polynom einer linearen Abbildung). Das charakteristische Polynom einer linearen Abbildung ist das charakteristische Polynom einer Darstellungsmatrix der Abbildung. Man kann die Eigenwerte einer Matrix A über die Nullstellen ihres charakteristisches Polynom χA ermitteln: Lemma 10.15. Sei A ∈ Mn,n (K). Ein Skalar λ ∈ K ist genau dann Eigenwert von A, wenn χA (λ) = 0. Beweis. Sei A ∈ Mn,n (K) und λ ∈ K. Da für v ∈ Kn und λ ∈ K gilt Av = λv ⇐⇒ (A − λIn )v = 0, ist λ genau dan ein Eigenwert von A, falls Lös(A − λIn , 0) 6= {0}. Nach Satz 5.7 auf Seite 62 ist: Lös(A − λIn , 0) 6= {0} ⇐⇒ rang(A − λIn ) < n. Weil eine Matrix dann und nur dann sigulär ist, wenn ihre Determinante Null ist, folgt: λ ist Eigenwert von A ⇐⇒ det(A − λIn ) = 0. Aus χA (λ) = det(A − λIn ) erhalten wir die Behauptung. Beispiel 10.16. In der reellen Ebene R2 beschreiben wir eine Drehung um den Nullpunkt mit dem Winkel ϕ durch die lineare Abbildung mit der Matrix cos ϕ − sin ϕ Dϕ := ∈ M2,2 (R) sin ϕ cos ϕ 112 10. Normalformen und Eigenwerte Für das charakteristische Polynom gilt χDϕ (X) = det cos ϕ − X − sin ϕ sin ϕ cos ϕ − X = (cos ϕ − X)(cos ϕ − X) − (− sin ϕ sin ϕ) = cos2 ϕ − (2 cos ϕ)X + X 2 + sin2 ϕ. Aus der Euler’schen Formel cos2 ϕ + sin2 ϕ = 1 folgt: χDϕ (X) = X 2 − (2 cos ϕ)X + 1 (18) Mit der pq-Formel sind die beiden Nullstellen x1,2 = 2 cos ϕ ± p 4 cos2 ϕ − 4 2 genau dann reell, wenn 4 cos2 ϕ − 4 ≥ 0, also cos2 ϕ = 1. Alternative Überlegung: Nach dem Fundamentalsatz der Algebra (Fakt 4.23 auf Seite 52) zerfällt χDϕ über C in Linearfaktoren, d.h. es gibt c, λ, λ0 ∈ C mit χDϕ (X) = c(X − λ)(X − λ0 ) = c(X 2 − X(λ + λ0 ) + λλ0 ). Nach Lemma 4.25 auf Seite 53 ist λ0 = λ und mit (18) folgt c = 1, λ + λ = 2 cos ϕ und λλ = 1. Für λ = a + ib ergibt sich a = cos ϕ und cos2 ϕ + b2 = 1. Damit ist λ genau dann reell, wenn cos2 ϕ = 1, also für ϕ = 0 und ϕ = π. Eine Drehung in R2 hat nur dann reelle Eigenwerte, wenn ϕ = 0 (also Dϕ = Id) oder ϕ = π (also bei einer Spiegelung an der x2 -Achse). Die entsprechenden Eigenwerte sind 1 und −1. Wie sehen die Eigenräume aus? Man erhält die Menge der Eigenwerte, indem man die Nullstellen des charakteristischen Polynoms ermittelt. Der naheliegende Gedanke, dass die Vielfachheiten der Eigenwerte den Vielfachheiten der Nullstellen des charakteristischen Polynoms entsprechen, trifft im allgemeinen nicht zu. Entsprechend zur Notation in Kapitel 4, Definition 4.20 auf Seite 51, bezeichnen wir die Vielfachheit einer Nullstelle λ von χA (X) mit ν(A, λ). Die Vielfachheit des Eigenwerts λi von A ist genau dim Eig(A, λi ): Lemma 10.17. Sei A ∈ Mn,n (K) und λ ∈ K. Dann gilt dim Eig(A, λ) ≤ ν(A, λ). Beweis. Sei k := dim Eig(A, λ), b1 , . . . , bk linear unabhängige Eigenvektoren zu λ und b1 , . . . , bk , . . . , bn sei Basis des Kn . Wir setzen B = (b1 · · · bn ) ∈ Mn,n (K). Dann 2. Charakteristisches Polynom ist B −1 AB von der Form λ 0 . 0 . . . . ... . . −1 B AB = .. . .. . .. 0 ··· 113 ··· .. . .. . .. . ··· ··· 0 ∗ .. . .. . λ ∗ ··· ∗ 0 .. . d1,1 .. . ··· d1,n−k .. . 0 .. . ∗ .. . .. . 0 dn−k,1 · · · dn−k,n−k ∈ Mn,n (K). Mit Lemma 10.13 und Satz 9.36 über die Determinante von Kastenmatrizen gilt χA (X) = χB −1 AB (X) = det(B −1 AB − XIn ) = (λ − x)k χD (X). Somit gilt ν(A, λ) ≥ k. Beispiel 10.18. Wir betrachten ein Jordan-Kästchen: λ 0 ··· ··· 0 .. 1 . . . . . . . . J = 0 . . . . . . . . . .. ∈ Mn,n (K). .. . . .. .. . . 0 . . 0 ··· 0 1 λ Es gilt 0 ··· 1 . . . dim Eig(A, λ) = n − rang 0 . . . .. . . . . 0 ··· ··· .. . .. . 0 ··· .. . 1 0 .. . .. = n − (n − 1) = 1 . .. . 0 sowie χJ (x) = (λ − x)n . Wir erhalten ν(J, λ) = n > dim Eig(J, λ) = 1. Wir erhalten folgendes Diagonalisierbarkeitskriterium: Satz 10.19. Eine quadratische Matrix A ∈ Mn,n (K) ist genau dann diagonalisierbar, wenn a) Das P charakteristische Polynom χA (X) vollständig in Linearfaktoren zerfällt: λ∈K ν(A, λ) = n b) Für alle Eigenwerte λ ∈ K gilt: ν(A, λ) = dim Eig(A, λ) Beweis. Beide Bedingungen zusammen sind gleichwertig zu X dim Eig(A, λ) = n λ∈K und nach Satz 10.11 gilt dies genau für diagonalisierbare Matrizen. 114 10. Normalformen und Eigenwerte Bei diagonalisierbaren Matrizen entspricht die Vielfachheit der Nullstellen des charakteristischen Polynoms der Vielfachheit der Eigenwerte. Bemerkung 10.20. Wir wissen, dass jedes Polynom p ∈ C[X] vom Grad n über C in Linearfaktoren zerfällt. Die Nullstellen müssen nicht paarweise verschieden sein, aber fast alle Polynome p ∈ C[X] vom Grad n haben n verschiedene Nullstellen in C. Die Ausnahmemenge in C[X]n ∼ = Cn+1 hat das Lebesguemaß 0. Damit sind fast alle Matrizen A ∈ Mn,n (C) über C diagonalisierbar. 3. Normalformen Wie wir gesehen haben, sind nicht alle Matrizen diagonalisierbar. Jedoch kann jede Matrix auf einfache“ Formen, die kanonischen oder Normalformen, gebracht werden. ” P j m ∈ K[X] ein norDef inition 10.21 (Begleitmatrix). Sei p(X) = m−1 j=0 aj X + X miertes Polynom vom Grad m. Dann heißt 0 ··· ··· 0 −a0 .. 1 . . . . −a1 .. ∈ M L := 0 . . . . . . ... m,m (K) . .. . . .. .. . . . 0 . 0 · · · 0 1 −am−1 Begleitmatrix zu p. Im Fall m = 1 ist L = (−a0 ) ∈ M1,1 (K). Für jede lineare Abbildung mit vollem Rang gibt es eine Darstellungsmatrix aus Begleitmatrizen auf der Diagonalen [G86, Kap. 6, Satz 7]. Satz 10.22. Jede reguläre Matrix A ∈ Mm,m (K) ist ähnlich zu einer Kastenmatrix der Form L1 0 ··· 0 .. .. 0 . L . 2 . . .. .. . . . . 0 0 ··· 0 Lt Dabei sind L1 , . . . , Lt Begleitmatrizen zu Potenzen von irreduziblen (über K unzerlegbaren) Polynomen pi ∈ K[X]. Das charakteristische Polynom von A ist das Produkt dieser Polynome: χA (X) = t Y pi . i=1 Man spricht von einer blockdiagonalen Matrix . Lemma 10.23. Die Begleitmatrix L ∈ Mm,m (K) hat das charakteristische Polynom χL (X) = det(L − XIm ) = (−1)m p(X). 3. Normalformen 115 Beweis. Sei L ∈ Mm,m (K) die Begleitmatrix zum normierten Polynom p(X) = m−1 X ai X i + X m . i=0 Für das charakteristische Polynom χL (X) = det(L − XIm ) = det −X 0 .. . 0 .. . .. . .. . 0 ··· 1 ··· .. . .. . .. . 0 −a0 0 .. . −a1 .. 0 . .. −X . 1 (−am−1 − X) erhalten wir durch Entwicklung nach der letzten Spalte gemäß dem Entwicklungssatz 9.28 von Laplace, wobei A0im ∈ Mm−1,m−1 (K) die entsprechende Streichungsmatrix bezeichnet: χL (X) = m−1 X (−1)i+m (−ai−1 ) det A0im + (−1)m+m (−am−1 − X) · det A0mm i=1 m = (−1) X m i−1 (−1) ai−1 det A0im − X · det A0mm . i=1 Mit det A0im = (−X)i−1 (was wir anschließend beweisen werden) gilt weiter: X m m i−1 i−1 χL (X) = (−1) (−1) ai−1 (−X) − X · (−X)m−1 = (−1)m i=1 m−1 X ai X i + (−1)m X m i=0 m = (−1) p(X). Der Nachweis von −X det A0im 0 ··· ··· . . 1 .. .. 0 ... ... .. . . . . . . . ··· 0 = det 00 ··· ··· .. . . .. .. . 0 ··· ··· ··· ··· ··· 0 .. . .. . .. . . .. .. . . ! 1 −X 0 ··· ··· ··· 0 = (−X)i−1 ··· 0 1 −X 0 ··· 0 . . . . . . . . .. . . . . . .. .. .. 0 . . . . . . . −X . . .. ··· ··· ··· ··· ··· ··· ··· 0 1 folgt unmittelbar durch Laplace-Entwicklung nach der letzten Zeile: det A0im = (−1)(m−1)+(m−1) · 1 · (−X)i−1 · 1m−i = (−X)i−1 . 116 10. Normalformen und Eigenwerte Pn i Ist p(X) = i=0 pi X ∈ K[X] ein Polynom, kann man für die Unbestimmte X nicht nur Elemente aus K, sondern auch Endomorphismen f : V → V eines KVektorraums V einsetzen. Wir erhalten einen Endomorphismus p(f ) : V → V mit p(f ) = p0 · id + p1 f + . . . + pn−1 f n−1 + pn f n wobei fk = f ◦ . . . ◦ f | {z } k-mal die k-fache Hintereinanderausführung bezeichnet. Auf gleiche Weise kann man ebenfalls eine Matrix A ∈ Mn,n (K) einsetzen: p(A) = p0 In + p1 A + . . . + pn−1 An−1 + pn An ∈ Mn,n (K) Der Satz von Cayley-Hamilton besagt, setzt man eine Matrix in ihr eigenes charakteristisches Polynom ein, ergibt dies die Nullmatrix: Satz 10.24 (Cayley-Hamilton). Für A ∈ Mn,n (K) ist χA (A) = 0. Einen Beweis findet man in [Beu98, Kapitel 8.3]. Wir wenden den Satz von Cayley-Hamilton auf die beschreibende Matrix einer linearen Abbildung an und erhalten: Korollar 10.25. Sei V ein K-Vektorraum und f : V → V Endomorphismus. Dann gilt χf (f ) = 0, d.h. χf (f ) ist die Nullabbildung. Für allgemeine Homomorphismen von Vektorräumen f : U → V ist weder die Determinante noch das charakteristische Polynom erklärt. Die Determinante der Darstellungsmatrix ist zwar im Fall dim U = dim V erklärt, aber von der Wahl der Basen in U und V abhängig. Für beliebige Homomorphismen von Vektorräumen f : U → V kann man die Basen in U und V stets so wählen, dass f durch eine Diagonalmatrix dargestellt wird. Bemerkung 10.26. Die sogenannte Jordan’sche Normalform bezieht sich nur auf n × n Matrizen und Endomorphismen, deren charakteristisches Polynom χA (X) in Linearfaktoren zerfällt, d.h. χA (X) hat mit Vielfachheiten gezählt n Nullstellen. Dies ist ein Spezialfall, der P über dem Körper R bei großem n relativ selten ist. Ist A ∈ Mn,n (K) regulär und λ∈K ν(A, λ) = n, dann ist A ähnlich zu einer verallgemeinerten Diagonalmatrix, deren Kästen Jordan-Kästchen sind. Dabei ist λ ein Eigenwert von A. Kapitel 11 Euklidische Vektorräume In den vorherigen Kapiteln betrachteten wir allgemeine Körper K. Die analytische ” Geometrie“ dagegen basiert auf dem Körper der reellen Zahlen. Man erweitert die Vektorraumstruktur um ein sogenanntes Skalarprodukt, um sowohl Länge als auch Winkel zu definieren. 1. Vektornorm Bei einem normierten Vektorraum ist außer dem Raum selbst eine Funktion gegeben, die jedem Vektor eine Länge (Norm) zuordnet: Def inition 11.1 (Vektornorm). Sei V ein R-Vektorraum. Eine Vektornorm auf V ist eine Abbildung k·k : V → R mit folgenden Eigenschaften: (N1) Positive Definitheit: kvk > 0 für v 6= 0. (N2) Positive Homogenität: kλvk = |λ| · kvk für λ ∈ R, v ∈ V . (N3) Dreiecksungleichung: kv + wk ≤ kvk + kwk für v, w ∈ Rn . Die reelle Zahl kvk heißt Norm oder Länge des Vektors v. Aus der positiven Homogenität folgt mit λ = 0, dass k0k = 0 ist, aufgrund der positiven Definitheit gilt daher: kvk = 0 ⇐⇒ v = 0. Für V = Rn verwendet man häufig eine der folgenden Normen, dabei sei x = (x1 , . . . , xn )T ∈ Rn : P • Betragsnorm: kxk1 := ni=1 |xi |. qP n 2 • Euklidische Norm:: kxk2 := i=1 xi . • Maximumsnorm: kxk∞ := max |xi |. i=1,...,n 117 118 11. Euklidische Vektorräume Der Nachweis der Norm-Eigenschaften ist einfach. Eine Verallgemeinerung dieser Beispiele ist die sogenannte p-Norm zu einer festen, reellen Zahl p ≥ 1: X 1 n p p |xi | kxkp := . i=1 Für p = 1 bzw. p = 2 erhält man die Betrags- und die euklidische Norm, die Maximumsnorm ergibt sich als Grenzfall der p-Norm für p → ∞. Die positive Definitheit und Homogenität erfüllt die p-Norm offenbar, die Dreiecksungleichung folgt aus der Minkowski’schen Ungleichung, die man in der Analysis zeigt. Fakt 11.2 (Hölder’sche Ungleichung). Zu p, q ≥ 1 mit p1 + 1q = 1 gilt für alle x, y ∈ Rn : T x y ≤ kxk · kyk . p q Ein Spezialfall der Hölder’schen Ungleichung ist die Cauchy-Schwarz-Ungleichung. Mit p = q = 2 folgt für x, y ∈ Rn : T x y ≤ kxk · kyk 2 2 Die Gleichheit gilt genau dann, wenn beide Vektoren linear abhängig sind. Fakt 11.3. Je zwei Normen k·k und k·k0 auf dem Rn sind äquivalent, d.h. es gibt Konstanten c1 , c2 ∈ R mit c1 · kxk ≤ kxk0 ≤ c2 · kxk für alle x ∈ Rn . Zum Beispiel gilt für x ∈ Rn : √ kxk2 ≤ kxk1 ≤ n · kxk2 √ kxk∞ ≤ kxk2 ≤ n · kxk∞ kxk∞ ≤ kxk1 ≤ n · kxk∞ . Der Abstand (Distanz ) zwischen zwei Vektoren x, y ∈ Rn läßt sich definieren als d(x, y) := kx − yk. Wir haben im Kapitel 7 über lineare Codes gesehen, dass man den Abstand zweier Vektoren auch unabhängig von einer Norm formulieren kann. Def inition 11.4 (Metrik). Sei V ein Vektorraum über einem Körper K. Eine Metrik auf V ist eine Abbildung d : V × V → R mit folgenden Eigenschaften: (M1) Symmetrie: d(x, y) = d(y, x) für x, y ∈ V . (M2) Dreiecksungleichung: d(x, z) ≤ d(x, y) + d(y, z) für x, y, z ∈ V . (M3) Es gilt x = y ⇐⇒ d(x, y) = 0 für x, y ∈ V . Die reelle Zahl d(x, y) heißt Abstand oder Distanz von x und y. Für den Abstand zweier Vektoren x und y gilt stets d(x, y) ≥ 0, denn: 0 = d(x, x) ≤ d(x, y) + d(y, x) = d(x, y) + d(x, y) = 2 · d(x, y). 2. Matrixnorm 119 Zu jeder Norm k·k ist d(x, y) = kx − yk eine Metrik auf dem Raum Rn . Die Umkehrung gilt nicht, denn zur Metrik d mit ( 1 falls x 6= y d(x, y) := 0 sonst auf dem Rn stellt die Abbildung x 7→ d(x, 0) keine Norm dar (wieso?). 2. Matrixnorm Die Matrixnorm auf Mm,n (R) ist mit der Isomorphie Rm·n ' Mm,n (R) äquivalent zur Vektornorm auf Rm·n : Def inition 11.5 (Matrixnorm). Eine Matrixnorm auf Mm,n (R) ist eine Abbildung k·k : Mm,n (R) → R mit folgenden Eigenschaften: (N1) Positive Definitheit: kAk > 0 für A 6= 0. (N2) Positive Homogenität: kλAk = |λ| · kAk für λ ∈ R, A ∈ Mm,n (R). (N3) Dreiecksungleichung: kA + Bk ≤ kAk + kBk für A, B ∈ Mm,n (R). Die reelle Zahl kAk heißt Norm der Matrix A. Auch für Matrixnormen ist genau dann A = 0, wenn kAk = 0 gilt. Man verwendet häufig eine der folgenden beiden Normen, dabei sei A = (aij )ij ∈ Mm,n (R): • Die Frobenius-Norm entspricht der euklidischen Norm auf Rm×n : v uX n um X t kAkF := a2i,j . i=1 j=1 • die p-Matrixnorm zu einer festen, reellen Zahl p ≥ 1: kAxkp kAkp := sup . x6=0 kxkp Wegen der positiven Homogenität können wir die p-Matrixnorm auch schreiben als: n o kAkp = sup kAxkp kxkp = 1 . Die p-Matrixnorm interpretiert A als Abbildung Rn → Rm mit x 7→ Ax und nicht als Vektor in Rm×n ' Mm,n (R). Die Matrixnorm kAkp gibt an, um welchen Faktor die Länge (in der p-Norm) des Vektors x durch die Abbildung x 7→ Ax höchstens gestreckt wird: kAxkp ≤ kAkp · kxkp (19) Wir haben die p-Matrixnorm kAkp der Matrix Mm,n (R) definiert als das Supremum von der p-Vektornorm kAxkp über alle x aus der n-Sphäre (Kugeloberfläche) n o Sn,k·kp := x ∈ Rn kxkp = 1 zur Vektornorm k·kp . Die p-Norm einer Matrix ist eine reelle Zahl, denn die Abbildung x 7→ kAxkp ist stetig und Sn,k·kp kompakt: 120 11. Euklidische Vektorräume Lemma 11.6. Zu einer Matrix A ∈ Mm,n (R) nimmt die Abbildung x 7→ kAxkp mit x ∈ Sn,k·kp ihr Supremum an. Die p-Matrixnorm hat die wichtige Eigenschaft der Submultiplikativität: Lemma 11.7 (Submultiplikativität der p-Matrixnorm). Seien A ∈ Mk,m (R) und B ∈ Mm,n (R). Dann gilt: kA · Bkp ≤ kAkp · kBkp . Beweis. Wir wenden Abschätzung (19) an: kABxkp = kA(Bx)kp ≤ kAkp · kBxkp ≤ kAkp · kBkp · kxkp . Aus der Ungleichung für beliebiges x 6= 0 kABxkp kxkp ≤ kAkp · kBkp folgt, dass das Supremum kA · Bkp = supx6=0 der Normen beider Matrizen beschränkt ist. n kABxk o p kxkp durch das Produkt kAkp ·kBkp Im Beweis zu Lemma 11.6 benutzen wir, dass bei der Zusammensetzung linearer Abbildungen die Darstellungsmatrizen multipliziert werden. Für φB : x 7→ Bx und φA : x 7→ Ax ist die Zusammensetzung φA ◦ φB mit φA (φB (x)) beschrieben durch die Matrix AB: φA ◦ φB = φ(A·B) . In der Numerik verwendet man die Matrix-Norm, um zu zeigen, dass ein iteratives Verfahren eine approximative Lösung bestimmt. Wir geben im folgenden einen Algorithmus zur näherungsweisen Berechnung der inversen Matrix zu einer gegebenen Matrix an. Zunächst zeigen wir das Analogon zur geometrischen Reihe P ν für x ∈ R mit |x| < 1 für Matrizen: (1 − x)−1 = ∞ x ν=0 Satz 11.8. Sei A ∈ Mn,n (R) eine quadratische Matrix mit p-Norm kAkp < 1. Dann gilt (In − A)−1 = ∞ X Aν und kIn − Akp ≤ ν=0 1 . 1 − kAkp Beweis. Die Matrix In − A ist regulär, denn anderenfalls gäbe es ein x 6= 0 mit (In − A)x = 0, also x = Ax. Wegen kxkp = kAxkp ist dann kAkp ≥ 1 im Widerspruch zur Voraussetzung. Das Inverse (In − A)−1 existiert. Die Identität (In − A) · t X Aν = In − At−1 ν=0 impliziert lim (In − A) · t→∞ t X ν=0 Aν = In . (20) 2. Matrixnorm 121 Aufgrund der Submultiplikativität der p-Norm, die wir in Lemma 11.6 gezeigt haben, gilt: t+1 A ≤ kAk · kAk · · · kAk = kAkt+1 p p p p p | {z } (t + 1)-mal Mit der Voraussetzung kAkp < 1 folgt limt→∞ At+1 p = 0. Gleichung (20) multipliziert mit (In − A)−1 ergibt: lim t→∞ t X Aν = (In − A)−1 . (21) ν=0 Mit der Dreiecksungleichung für die Matrixnorm erhalten wir: ∞ X (In − A)−1 ≤ kAν kp ≤ p ν=0 Die letzte Abschätzung ist die geometrische Reihe |x| < 1. 1 . 1 − kAkp P∞ ν ν=0 x = 1 1−x für x ∈ R mit Es folgt: Lemma 11.9. Seien A, B ∈ Mn,n (R) quadratische Matrizen mit kIn − ABkp ≤ für ein < 1. Dann gilt: kIn − 2AB + (AB)2 kp ≤ 2 . | {z } =AB(AB−2In ) Beweis. Aus dem binomischen Lehrsatz und der Submultiplikativität der p-Matrixnorm folgt: In − 2AB + (AB)2 = (In − AB)2 ≤ 2 . p p Wähle eine Startmatrix B0 mit kIn − AB0 kp ≤ für ein < 1. Für die Folge Bi := Bi−1 (−ABi−1 + 2In ) i = 1, 2, 3, . . . gilt: i kIn − ABi kp ≤ 2 . Nach jeder Iteration wird der Abstand ABi zur Einheitsmatrix In immer kleiner. Die Differenz In − ABi quadriert sich in jeder Iteration, man spricht von quadratischer Konvergenz. Anhand des Wertes wissen wir, nach wievielen Iterationen man eine näherungsweise Lösung mit der gewünschten Approximationsgüte gefunden hat. Die p-Norm der Startmatrix können wir mit folgendem Satz nach oben mit Hilfe der p- und 1-Vektornorm abschätzen: 122 11. Euklidische Vektorräume Satz 11.10. Sei A ∈ Mn,n (R) eine quadratische Matrix mit Spalten A1 , . . . , An . Dann gilt: kxk1 kAkp ≤ max kAi kp · max . n i=1,...,n x∈R \{0} kxkp Beweis. Es ist: kAkp = max x6=0 kAxkp kxkp = max k Pn i=1 Ai xi kp kxkp x6=0 . Aus der Dreicksungleichung und der positiven Homogenität der p-Matrixnorm folgt: ! n n X X kxi k |xi | ≤ max max kAi kp · kAkp ≤ max kAi kp · i=1,2,...,n x6=0 x6=0 kxkp kxkp i=1 i=1 Pn Mit kxk1 = i=1 |xi | erhalten wir die Behauptung: kAkp ≤ max kAi kp · max i=1,...,n x6=0 kxk1 . kxkp Zum Beispiel ist kxk1 kxk2 ≤ √ n und kxk1 kxk∞ ≤ n für x ∈ Rn \ {0}. 3. Skalarprodukt Ein euklidischer Vektorraum ist ein reeller Vektorraum in Verbindung mit einem Skalarprodukt: Def inition 11.11 (Skalarprodukt). Sei V ein R-Vektorraum. Ein Skalarprodukt auf V ist eine Abbildung h·, ·i : V × V → R, die folgenden Regeln genügt: (S1) Positive Definitheit: hv, vi > 0 für alle v 6= 0. (S2) Bilinearität: Für jedes v ∈ V sind die beiden Abbildungen hv, ·i , h·, vi : V → R mit w 7→ hv, wi und w → 7 hw, vi linear.1 (S3) Symmetrie: hv, wi = hw, vi für alle v, w ∈ V . Man sagt kurz, h·, ·i ist eine positiv definite, symmetrische Bilinearform auf V . Ein wichtiges Beispiel eines Skalarproduktes auf dem Rn , das sogenannte kanonische Skalarprodukt auf dem Rn , haben wir bereits kennengelernt: n X hx, yi := xy T = xi yi . i=1 Man überzeuge sich, dass es die Bedingungen eines Skalarprodukts erfüllt. Neben dem kanonischen Skalarprodukt gibt es auch Skalarprodukte, die durch einen Basiswechsel entstehen. Sei etwa B ∈ Mn,n (R) eine Basismatrix bestehend aus den Spaltenvektoren B1 , . . . , Bn . Dann hat das kanonische Skalarprodukt h·, ·i zur Basis B die Form h·, ·iB mit: hv, wiB := hBv, Bwi = (Bv)T (Bw) = v T B T Bw. 1Wegen der Symmetrie hätte es genügt, die Linearität in nur einer Komponente zu fordern. 3. Skalarprodukt 123 die Matrix Q := B T B ist symmetrisch, d.h. Q = QT . p Für einen euklidischen Vektorraum verwendenn wir als Norm die Abbildung kvk := hv, vi. Für das kanonische Skalarprodukt im R liefert dies die euklidische Länge v u n uX kxk = t x2i . i=1 p Wir zeigen, daß kvk := phv, vi eine Norm ist. Aus den Eigenschaften des Skalarprodukts folgt unmittelbar hv, vi > 0 für v 6= 0 und p p p p hλv, λvi = λ · hv, λvi = λ2 · hv, vi = |λ| · hv, vi. Die Dreiecksungleichung kv + wk ≤ kvk + kwk der Norm weist man mit Hilfe der Cauchy-Schwarz-Ungleichung nach: ≤kvk+kwk z }| { kv + wk = kvk + 2 · hv, wi + kwk2 ≤ (kvk + kwk)2 2 2 Zu zeigen bleibt die Abschätzung hv, wi ≤ kvk · kwk: Satz 11.12 (Cauchy-Schwarz-Ungleichung). In jedem euklidischen Vektorraum V gilt für v, w ∈ V : |hv, wi| ≤ kvk · kwk . Die Gleichheit gilt genau dann, wenn beide Vektoren linear abhängig sind. Beweis. Für w = 0 gilt die Behauptung, so dass im weiteren w 6= 0 sei. Setze λ := hv,wi . Es gilt: kwk2 0 ≤ hv − λw, v − λwi (22) = hv, v − λwi − λ · hw, v − λwi = hv, vi − 2λ · hv, wi + λ2 · hw, wi Mit hu, ui = kuk2 folgt: 0 ≤ kvk2 − 2 · hv, wi2 hv, wi2 hv, wi2 2 + = kvk − . kwk2 kwk2 kwk2 Wir erhalten die Behauptung aus hv, wi2 ≤ kvk2 · kwk2 . Die Gleichheit in (22) gilt genau dann, wenn w = 0 oder v = µw für ein µ ∈ R. Seien x, y ∈ Rn \ {0} und h·, ·i das kanononische Skalarprodukt. Gemäß CauchySchwarz-Ungleichung gilt −1 ≤ Somit gilt cos ϕ = hx,yi kxk·kyk hx, yi ≤ +1. kxk · kyk für genau ein Winkel ϕ ∈ [0, π]: 124 11. Euklidische Vektorräume Abbildung 1. Winkel y y2 ϕK - x cos ϕ y1 Abbildung 2. Cosinus +1 π/2 0 π 3π/2 2π - ϕ −1 π/2 π } rϕ cos ϕ e1 - 0/2π 2π/2 Satz 11.13. Zu x, y ∈ Rn \ {0} ist der Winkel zwischen x, y ϕ := ∠(x, y) := arccos mit cos ϕ = hx, yi kxk · kyk hx,yi kxk·kyk . Beweis. Sei o.B.d.A. x = (x1 , x2 )T ∈ R2 mit x2 = 0 und x1 ≥ 0, sowie y = (y1 , y2 )T ∈ R2 . Für den Winkel ϕ = ∠(x, y) gilt: cos ϕ = y1 kxk · y1 hx, yi Ankathete = =p 2 = . 2 Hypothenuse kxk · kyk kxk · kyk y 1 + y2 Wir erhalten als Verallgemeinerung des Satzes von Pythagoras: 3. Skalarprodukt 125 Satz 11.14 (Cosinussatz). Für x, y ∈ Rn \ {0} gilt mit ϕ := ∠(x, y): kx − yk2 = kxk2 + kyk2 − 2 hx, yi = kxk2 + kyk2 − 2 kxk · kyk · cos ϕ. Für cos ϕ = 0 ist ∠(x, y) = 21 π, also cos ϕ = 0 ⇐⇒ kxk2 + kyk2 = kx − yk2 . Korollar 11.15 (Parallelogramm-Gleichung). Für x, y ∈ Rn \ {0} gilt: kx + yk2 + kx − yk2 = 2 kxk2 + 2 kyk2 . Abbildung 3. Parallelogramm-Gleichung x : kx − yk 0 kx + yk - x+y j y Ist der Winkel ∠(v, w) = 90◦ , sagt man, der Vektor w steht senkrecht auf v: Def inition 11.16 (Orthogonalität). Zwei Vektoren v, w ∈ V eines euklidischen Vektorraums V sind orthogonal oder senkrecht, v ⊥ w, falls hv, wi = 0. Wir schreiben v ⊥ U für eine Menge U von Vektoren, wenn v orthogonal zu allen Vektoren u ∈ U ist. Eine Menge von Vektoren v1 , . . . , vn ∈ V heißt orthogonal, wenn vi ⊥ vj für i 6= j. Wie für das kanonische Skalarprodukt in Abschnitt 1 definiert man zu einem Untervektorraum U eines reellen Vektorraum V das orthogonale Komplement U ⊥ gemäß U ⊥ := {v ∈ V | hu, vi = 0 für alle u ∈ U } = {v ∈ V | v ⊥ U } . Analog zu Satz 8.1 gilt V = U ⊕ U ⊥ . Def inition 11.17 (Orthogonal-, Orthonormalbasis). Die Vektoren b1 , . . . , bn eines Vektorraum V nennt man orthonormal oder Orthonormalsystem, wenn kbi k = 1 für i = 1, . . . , n und bi ⊥ bj für i 6= j.2 Bilden die Vektoren eine Basis von V , spricht man von einer Orthogonal- bzw. Orthonormalbasis. aus Vektoren b1 , . . . , bn eines Orthogonalsystems sind stets linear unabhängig, denn Pn λ b j=1 j j = 0 folgt für i = 1, . . . , n: * n + n X X 0 = h0, bi i = λ j bj , b i = λi · hbj , bi i = λi · hbi , bi i = λi · kbi k , j=1 j=1 2Anders ausgedrückt hb , b i = δ für 1 ≤ i, j ≤ n. i j i,j 126 11. Euklidische Vektorräume so dass wegen bi 6= 0 folgt kbi k = 6 0 und λ1 = · · · = λn = 0. Sei b1 , . . . , bn eine Orthogonalbasis P eines reellen Vektorraums V . Jeden Vektor v ∈ V können wir schreiben als v = nj=1 λj bj . Es folgt für i = 1, . . . , n: * n + n X X λ j bj , b i = λj hbj , bi i = λi · hbi , bi i = λi · kbi k2 hv, bi i = j=1 i=j Die i-te Koordinate bezüglich der Orthogonalbasis ist λi = hv,bi i : kbi k2 Satz 11.18. Sei b1 , . . . , bn eine Orthogonalbasis eines reellen Vektorraums V . Für v ∈ V gilt: v= n X hv, bi i i=1 Für eine Orthonormalbasis ist v = · bi . kbi k2 Pn i=1 hv, bi i · bi . Sei V ein reeller Vektorraum und U ein Untervektorraum mit einer orthogonalen Basis b1 , . . . , bm . Diese können wir durch Hinzunahme von Vektoren bm+1 , . . . , bn aus U ⊥ zu einer Basis von V erweitern. Die orthogonale Projektion πU : V → U ist gegeben durch: v 7→ m X hv, bj i j=1 kbj k2 · bj Das Schmidt’sche Orthogonalisierungsverfahren erzeugt zu einer Basis b1 , . . . , bn eines euklidischen Vektorraums V eine Orthogonalbasis b∗1 , . . . , b∗n gemäß folgender Rekursion: b∗1 := b1 b∗i := bi − i−1 X hbi , b∗ i j ∗ k2 kb j j=1 · b∗j für i > 1. (23) Die Vektoren b∗1 , . . . , b∗n nennt man die Höhen der Basisvektoren b1 , . . . , bn , die Ko∗ effizienten µi,j := hbkbi∗,bkj2i Gram-Schmidt-Koeffizienten. In Übungsaufgabe 12.2 zeigen j wir die Korrektheit des Schmidt’schen Orthogonalisierungsverfahrens: Satz 11.19. Sei b1 , . . . , bn eine Basis eines euklidischen Vektorraums V . Die Vektoren b∗1 , . . . , b∗n der Rekursion (23) bilden eine Orthogonalbasis von V . Aus der Eindeutigkeit der Zerlegung bi = πU (bi ) + πU ⊥ (bi ) folgt, dass für eine geordnete Basis, d.h. die Reihenfolge der Basisvektoren ist fest vorgegeben, die Höhen eindeutig bestimmt sind. Indem wir die Höhen b∗1 , . . . , b∗n der Orthogonalbasis normieren, also b∗i durch kb1∗ k · i b∗i ersetzen, erhält man eine Orthonormalbasis, d.h. jeder euklidische Vektorrraum besitzt eine Orthonormalbasis. 4. Orthogonale Abbildungen und Matrizen 127 4. Orthogonale Abbildungen und Matrizen Wir nennen eine Abbildung orthogonal, wenn das gegebene Skalarprodukt zweier Vektoren x, y mit dem der Bilder übereinstimmt: Def inition 11.20 (Orthogonale Abbildung). Eine lineare Abbildung f : Rn → Rm heißt orthogonal (auch isometrisch), wenn für alle x, y ∈ Rn gilt: hx, yi = hf (x), f (y)i . Der Begriff orthogonale Abbildung“ läßt sich auf den Fall beliebiger Vektorräume ” verallgemeinern. Sei V ein reeller, n-dimensionaler Vektorraum mit Basis B und Φ : V → Rn der Isomorphismus, der einen Vektor auf seinen Koordinatenvektor bezüglich der Basis abbildet: Φ(Bt) = (t1 , . . . , tn )T . Durch hv, wiV := hΦ(v), Φ(w)i ist ein Skalarprodukt auf V definiert. Der Endomorphismus F : V → V heißt orthogonal, wenn hv, wiV = hf (v), f (w)i für alle v, w ∈ V ist. Dies gilt genau dann, wenn die Abbildung (Φ ◦ f ◦ Φ−1 ) : Rn → Rn orthogonal ist. Lemma 11.21. Sei A ∈ Mn,n (R) und φA : Rn → Rn mit x 7→ Ax. Die Abbildung φA ist genau dann orthogonal (bezüglich kanonischem Skalarprodukt), wenn AT = A−1 . Beweis. Sei e1 , . . . , en die Standardbasis des Rn . Die Abbildung φA ist genau dann orthogonal, wenn für 1 ≤ i, j ≤ n gilt: hei , ej i = hφA (ei ), φA (ej )i . | {z } | {z } =eT i ·ej T =eT i A Aej Dies gilt genau dann, wenn AT A = In , also AT = A−1 . Eine Basis b1 , . . . , bn heißt orthonormal, falls hbi , bj i = δi,j für 1 ≤ i, j ≤ n. Satz 11.22. Sei A ∈ Mn,n (R) und φA : Rn → Rn mit x 7→ Ax. Bezüglich des kanonischen Skalarprodukts sind folgende Aussagen äquivalent: a) Die Abbildung φA ist orthogonal, d.h. AT A = In . b) A−1 = AT . c) Die Zeilenvektoren bilden eine Orthonormalbasis des Rn . d) Die Spaltenvektoren bilden eine Orthonormalbasis des Rn . Wir nennen die Matrix A orthogonal, wenn die Spalten- bzw. Zeilenvektoren eine Orthonormalbasis des Rn bilden: Def inition 11.23 (Orthogonale Matrix). Eine quadratische Matrix A ∈ Mn,n (R) heißt orthogonal, wenn AT A = In . Die Menge der orthogonalen n × n-Matrizen bezeichnet man mit On (R) ⊆ Mn,n (R). Die orthogonalen n × n-Matrizen On (R) bilden bezüglich der Multiplikation eine Gruppe bzw. eine Untergruppe von GLn (R): 128 11. Euklidische Vektorräume Satz 11.24. Die Menge der orthogonalen n×n-Matrizen On (R) ist ein multiplikative Gruppe. Beweis. Da die Matrix-Multiplikation assoziativ ist, genügt der Nachweis, dass On (R) abgeschlossen ist gegen Multiplikation und Inversenbildung. Zu A, B ∈ On (R) gilt AB ∈ On (R), denn T T (AB)T (AB) = B T · A | {zA} ·B = B B = In . =In Zu A ∈ On (R) gibt es ein Inverses A−1 = AT ∈ On (R). Wir haben bereits einige der Matrixgruppen kennengelernt. Die allgemeine, lineare Gruppe ist GLn (K) = {A ∈ Mn,n (K) | det A 6= 0 } . Für K = R bilden die orthogonalen Matrizen On (R) = A ∈ GLn (R) AT A = In eine Untergruppe von GLn (R), die sogenannte orthogonale Gruppe (vergleiche Satz 11.24 auf Seite 128). Die spezielle orthogonale Gruppe SOn (R) ist ihrerseits eine Untergruppe von On (R): SOn (R) = {A ∈ On (R) | det A = +1 } Beispiel 11.25. Beispiele orthogonaler 2 × 2-Matrizen sind Drehungen Dϕ um ϕ ∈ [0, 2π) und Spiegelungen SP: cos ϕ − sin ϕ 1 0 Dϕ = SP = sin ϕ cos ϕ 0 −1 Mit diesen beiden Matrix-Typen können wir die Menge der orthogonalen 2 × 2Matrizen schreiben als O2 (R) = {Dϕ , SP ·Dϕ | ϕ ∈ [0, 2π) }. Es gilt [Beu98, Kap. 10.4]: Satz 11.26. Sei A ∈ On (R) eine orthogonale n × n-Matrix. Dann gibt es eine orthogonale Matrix T ∈ On (R), so dass T −1 AT von folgender Form ist: Ik −I` 0 D ϕ 1 (24) . . . . 0 Dϕm Jede orthogonale Abbildung φ : Rn → Rm hat bezüglich einer geeigneten Orthonormalbasis eine darstellende Matrix der Form (24). 4. Orthogonale Abbildungen und Matrizen 129 Sei b1 , . . . , bn Basis eines euklidischen Vektorraums. Mit dem Gram-SchmidtOrthogonalisierungsverfahren b∗1 := b1 b∗i := bi − i−1 X hbi , b∗ i j ∗ kbj k2 j=1 · b∗j (25) für i > 1. berechnet man eine Orthogonalbasis b∗1 , . . . , b∗n . Zu den Gram-Schmidt-Koeffizienten ∗ µi,j := hbkbi∗,bkj2i mit i > j definiere: j ( 1 für i = j µij := 0 für i < j, so dass: b1 · · · bn = b∗1 · · · 1 µ2,1 · · · µn−1,1 µn,1 0 1 µn−1,2 µn,2 .. .. . . .. ∗ .. bn · . . . 0 0 1 µn,n−1 0 ··· 0 0 1 | {z } T = µi,j 1≤i,j≤n Wir normieren die Vektoren der Orthogonalbasis: b∗1 ··· b∗n = b∗1 kb∗1 k | ··· {z b∗n kb∗n k ∈On (R) · } kb∗1 k 0 .. . .. . 0 · · · 0 kb∗n k {z } 0 .. . 0 .. . 0 | · Diagonalmatrix mit pos. Elementen und erhalten: b1 · · · b∗ bn = kb∗1 k | 1 ··· {z ∈On (R) b∗n kb∗n k kb∗1 k 0 · . } .. 0 | 0 .. . ··· 0 .. . · µi,j T 1≤i,j≤n .. . 0 0 kb∗n k {z } · ∈ODn (R) Da die Gram-Schmidt-Orthogonalisierung eindeutig ist, gilt: Satz 11.27. Sei B ∈ GLn (R). Dann existiert eine eindeutige Zerlegung B = OT mit orthogonaler Matrix O ∈ On (R) und obere Dreiecksmatrix T ∈ ODn (R). Korollar 11.28 (Iwasawa-Zerlegung). Sei B ∈ GLn (R). Dann existiert eine eindeutige Zerlegung B = ODT mit orthogonaler Matrix O ∈ On (R), einer Diagonalmatrix D mit positiven Diagonalelementen und einer oberen Dreiecksmatrix T ∈ ODn (R). Teil 2 Lineare Algebra II Kapitel 12 Konvexe Geometrie Polyhedra, lineare Ungleichungssysteme und lineare Programmierung stellen drei Facetten des gleichen Problemfeldes dar: eine geometrische, eine algebraische und eine optimierende Sichtweise. Diese Beziehungen wurden zuerst von J. Fourier um 1820 bemerkt und später im 20. Jahrhundert wiederentdeckt. In diesem Abschnitt beschäftigen wir uns mit der geometrischen und der algebraische Sicht, auf die lineare Programmierung gehen wir in Kapitel 13 ein. 1. Konvexe Mengen Zu p, q ∈ Rn bezeichnen wir die Verbindungsstrecke von p und q mit: [p, q] := {λp + (1 − λ)q | 0 ≤ λ ≤ 1 } = {λp + µq | λ ≥ 0, µ ≥ 0, λ + µ = 1 } . Def inition 12.1 (Konvexe Menge). Eine Teilmenge K ⊆ Rn ist eine konvexe Menge, wenn für alle p, q ∈ K gilt [p, q] ⊆ K, d.h. die Verbindungsstrecke in K liegt. T Sei (Ki )i∈I eine Familie konvexer Mengen, dann ist auch der Durchschnitt i∈I Ki eine konvexe Menge. Die Vereinigung konvexer Mengen ist hingegen im allgemeinen nicht konvex. Dies führt zum Begriff der konvexen Hülle: Def inition 12.2 (Konvexe Hülle). Zu einer Teilmenge M ⊆ Rn ist die konvexe Hülle \ kon(M ) := K. M ⊆K K konvex Die konvexe Hülle kon(M ) von M ist die kleinste konvexe Menge, die M umfasst. Zur vereinfachung der Notation schreiben wir kon(p1 , . . . , pk ) für die konvexe Hülle einer Menge von Punkten p1 , . . . , pk . P Def inition 12.3 (Konvexkombination). Eine Linearkombination ki=0 λi pi von k+1 Punkten p0 , . . . , pk ∈ Rn mit λ0 , . . . , λk ∈ R heißt Konvexkombination, wenn λ0 , . . . , λk ≥ P 0 und ki=0 λi = 1. 133 134 12. Konvexe Geometrie Zum Bespiel sind die Punkte einer Verbindungsstrecke [p, q] genau die Konvexkombinationen der Punkte p und q. Lemma 12.4. Sei K ⊆ Rn eine konvexe Menge und p0 , . . . , pk ∈ K. Dann enthält P K jede Konvexkombination ki=0 λi pi von p0 , . . . , pk . Beweis. Für k = 0 kommt nur p0 als Konvexkombination von p0 in Betracht, so dass die Behauptung für k = 0 trivial ist. Für k ≥ 1 beweisen wir die Aussage durch Induktion über k: • Inmduktionsasis k = 1: Sei x eine Konvexkombination von p0 , p1 , diese liegt auf der Verbindungsstrecke: x ∈ [p0 , p1 ]. Da K konvex ist, gilt [p0 , p1 ] ⊆ K und es folgt x ∈ K. P • Induktionsschluß von k − 1 auf k: Sei x := ki=0 λi pi eine Konvexkombination. O.B.d.A. sei λk > 0. Dann ist µ := 1 − λ0 = λ1 + · · · + λk > 0 und es gilt λk λ1 p1 + · · · + pk . x = λ 0 p0 + µ µ µ | {z } =:y Pk Wegen λµ1 , . . . , λµk ≥ 0 und i=1 λµi = µµ = 1 ist y eine Konvexkombination der k − 1 Punkten p1 , . . . , pk ∈ K. Nach Induktionssannahme gilt y ∈ K. Da x= k X λi pi = λ0 p0 + µy, i=0 λ0 , µ ≥ 0 und λ0 + µ = 1 ist x eine Konvexkombination der beiden Punkte p0 , y ∈ K. Wir erhalten aus der Induktionsverankerung die Behauptung. Dies war zu zeigen. Satz 12.5. Für jede Menge M ⊆ Rn gilt: ) ( k k ∈ N und p , . . . , p ∈ M , X 0 k P , kon(M ) = λ i pi λ0 , . . . , λk ≥ 0 mit ki=0 λi = 1 i=0 d.h. die konvexe Hülle kon(M ) ist gleich der Menge L der Konvexkombinationen von je endlich vielen Punkten aus M . P P 0 0 Beweis. Wir zeigen, dass L konvex ist. Seien x := ki=0 λi pi und x0 := m i=0 λi pi 0 0 0 Konvexkombinationen von p0 , . . . , pk ∈ M und p0 , . . . , pm ∈ M . Zu zeigen ist [x, x ] ⊆ L. Sei y := λx + λ0 x0 ∈ [x, x0 ] mit λ, λ0 ≥ 0 und λ + λ0 = 1. Es gilt: y = λx + λ0 x0 = λ m X i=0 λ i pi + λ 0 m X i=0 λ0i p0i 1. Konvexe Mengen 135 P Pm 0 0 mit λ m i=0 λi + λ i=0 λi ≥ 0. Damit ist y eine Konvexkombination der k + m Punkten p0 , . . . , pk , p00 , . . . , p0m ∈ M , so dass y ∈ L gilt. Def inition 12.6 (Polyeder, Polygon). Ein (konvexes) Polyeder P ⊆ Rn ist die konvexe Hülle endlich vieler Punkte kon(p0 , p1 , . . . , pk ). Polyeder im R2 heißen Polygone. Im Englischen nennt man ein (konvexes) Polyeder Polytope. Ein Simplex ist ein einfaches Polyeder: Abbildung 1. Simplices s s s s s 0-Simplex s 1-Simplex s s 2-Simplex s s 3-Simplex Def inition 12.7 (Simplex). Die konvexe Hülle kon(p0 , . . . , pk ) von k + 1 Punkten p0 , . . . , pk ∈ Rn heißt k-Simplex, wenn p1 − p0 , p2 − p0 , . . . , pk − p0 linear unabhängig sind. Die lineare Unabhängigkeit der Differenzvektoren ist unabängig von der Reihenfolge der Punkte p0 , p1 , . . . , pk . Wir hatten in Definition 3.6 auf Seite 31 zu einem affinen Teilraum A den Richtungsraum R(A) = {p − a0 | p ∈ A } = {p − q | p, q ∈ A } (mit festem a0 ∈ A) eingeführt. Der Richtungsraum ist ein von der Wahl des Punktes a0 unabhängiger Vektorraum. Def inition 12.8 (Dimension affiner Untervektorraum). Die Dimension eines affinen Untervektoraums A ist die Dimension seines Richtungsraums, also dim A := dim R(A). Def inition 12.9 (Affine Hülle). Zu einer Teilmenge M ⊆ Rn ist die affine Hülle \ aff(M ) := A. M ⊆A A affiner Teilraum Die affine Hülle aff(M ) von M ist der kleinste affine Teilraum, der M umfasst. Def inition 12.10 (Affin unabhängig). Die k + 1 Punkte p0 , . . . , pk ∈ Rn heißen affin unabhängig, wenn p1 − p0 , p2 − p0 , . . . , pk − p0 linear unabhängig sind oder,äquivalent, wenn dim aff(p0 , . . . , pk ) = k gilt. Def inition 12.11 (Halbraum, Polyhedron). Sei ϕ : Rn → R eine lineare Abbildung und b ∈ R. Eine Teilmenge H = {x ∈ Rn | ϕ(x) ≥ b } ⊆ Rn 136 12. Konvexe Geometrie heißt (affiner) Halbraum. Ein Polyhedron P ⊆ Rn ist der Durchschnitt endlich vieler Halbräume. Die Dimension des Polyhedron P 6= ∅ ist ∃ affin unabhängige dim P := dim aff(P ) = max k ∈ N . p0 , p 1 , . . . , p k ∈ P Abbildung 2. Halbraum p p pp ppp ppp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppp pp p p p p p p pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp p pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp pp p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp p pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp p p pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp p p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp p pp ϕ(x) ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp≥ p p p p p pbp p p p p pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp pp p p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp pp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pp p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp pp p p p pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp pp p p pp ppp ppp ppp pp pp p p ϕ(x) = b Eine lineare Abbildung ϕ : Rn → R ist gegeben durch ϕ(x) = ax für einen Zeilenvektor a ∈ Rn . Ein Polyhedron P können wir schreiben als Lösungsmenge eines linearen Ungleichungssystems Ax ≥ b: P = {x ∈ Rn | Ax ≥ b } . Def inition 12.12 (Extremalpunkt, Ecke). Sei K ⊆ Rn eine konvexe Menge. Ein Punkt p ∈ K heißt Extremalpunkt von K, falls kein q ∈ Rn \ {0} mit p ± q ∈ K existiert. E(K) bezeichne die Menge der Extremalpunkte von K. Die Extremalpunkte eines Polyhedron P nennt man Ecken von P . Folgende, äquivalente Charakterisierungen der Extremalpunkte beweist man durch elementares Nachrechnen: Fakt 12.13. Sei K ⊆ Rn eine konvexe Menge. Dann sind folgende Aussagen äquivalent: a) p ∈ E(K), d.h. p ist ein Extremalpunkt von K. b) Es gibt keine Strecke [p1 , p2 ] ⊆ K mit p ∈ [p1 , p2 ] \ {p1 , p2 }. c) K \ {p} ist konvex. Lemma 12.14. Sei P := kon(p0 , . . . , pk ) ⊆ Rn ein Polyeder mit paarweise verschiedenen p0 , . . . , pk . Genau dann ist pk keine Ecke, wenn das Polyeder die konvexe Hülle der übrigen Punkte ist, also P = kon(p0 , . . . , pk−1 ). Beweis. Wir zeigen folgende Äquivalenz: pk ∈ / E(P ) Es gilt: ⇐⇒ pk ist Konvexkombination von p0 , . . . , pk−1 1. Konvexe Mengen 137 Abbildung 3. Ecke −q p p p pp pp ppp ppp ppp pppp pppp ppppp pppp ppp ppp pp p I psp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp p pppppppppppppppppppppppp p ppp ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp ppp pp p p p p p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp p ppp ppppp ppppp pppppR ppppppppppppppppp ppp ppp ppp ppp ppp ppppp ppppp ppppp ppppp ppppp +q p p p p p p p p p p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp p pp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp ppp pp p ppK pp ppp ppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pp p p pp pp ppp ppp ppp pp p P ⇐“ Sei pk = k−1 Wegen pk ∈ / {p0 , . . . , pk−1 } gilt i=0 λi pi eine Konvexkombination. ” P λi < 1 für alle i, so dass aufgrund k−1 λ = 1 mindestens zwei der λi -Werte i=0 i ungleich Null sind. Seien o.B.d.A. λ0 , λ1 6= 0. Mit := min(λ0 , λ) gilt pk ± (p0 − p1 ) ∈ P, P denn k−1 i=1 λi pi ± p0 ± p1 ist eine Konvexkombination von Punkten in P . Folglich gilt pk ∈ / E(P ). ⇒“ Sei pk ∈ / E(P ). Es existiert ein q ∈ Rn \ {0} mit pk ± q ∈ P . Seien pk + q = Pk−1 Pk−1 0 ” i=0 λi pi und pk − q = i=0 λi pi Konvexkombinationen. Dann ist k−1 (pk + q) + (pk − q) X λi + λ0i = pi pk = 2 2 i=0 ebenfalls eine Konvexkombination von p0 , . . . , pk−1 ∈ P , so dass kon(p0 , . . . , pk ) = kon(p0 , . . . , pk−1 ). Mit P = kon(p0 , . . . , pk ) folgt die Behauptung. Dies war zu zeigen. Sei P := kon(p0 , . . . , pk ) ⊆ Rn ein Polyeder mit paarweise verschiedenen p0 , . . . , pk . Nach Lemma 12.14 gilt pk ∈ E(P ) ⇐⇒ P 6= kon(p0 , . . . , pk−1 ), so dass E(P ) ⊆ {p0 , . . . , pk } ist. Man kann alle Nicht-Extremalpunkte aus der Menge {p0 , . . . , pk } entfernen, ohne die konvexe Hülle P zu verändern. Wir erhalten folgenden Satz, der auf Minkowski1 zurückgeht: Korollar 12.15 (Satz von Minkowski). Jedes Polyeder P ⊆ Rn ist die konvexe Hülle seiner Ecken, kurz P = kon(E(P )). Die Darstellung eines Polyeders als konvexe Hülle seiner Ecken ist minimal, kanonisch und explizit. Ziel ist es im folgenden, eine kanonische, explizite Darstellung für Polyhedra zu finden. In Übungsaufgabe 13.2 wird gezeigt: 1Das Interesse von Hermann Minkowski (1864–1909) für konvexe Geometrie und lineare Un- gleichungen kam aus der Zahlentheorie. Er formuliert und bewies zahlreiche wichtige Resultate für konvexe Menge und deren Volumen. Mit seinem Buch Geometrie der Zahlen“ (1896) begründete er ” das gleichnamigen Gebiet der Mathematik. 138 12. Konvexe Geometrie Abbildung 4. Zerlegung in Simplices p ppp ppp ppp ppp pp pp p p p p pp pp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp pppp pppp ppp ppp ppp pp pp pp pp p pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp p ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppp p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp p pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp p p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp pp p p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp pp pp p p p ppp ppp ppp ppp ppp ppp ppp ppp ppp pp pp pp p p ppp pp pp p p p Satz 12.16. Jedes Polyeder P ist die disjunkte“ Vereinigung von endlich vielen ” Simplices S1 , S2 , . . . , St mit E(Si ) ⊆ E(P ). Disjunkt“ bedeutet, dass dim(Si ∩ Sj ) < ” dim P für i 6= j. Abbildung 4 zeigt ein Beispiel zur Aussage des Satzes 12.16: Der Polyeder ist die disjunkte Vereinigung dreier Simplices. Der Beweis zu folgendem Satz, wonach ein Polyeder ein Polyhedron ist, wird ebenfall in Übungsaufgabe 13.2 geführt: Satz 12.17. Jedes Polyeder P ⊆ Rn ist der Durchschnitt endlich vieler Halbräume und ist somit ein Polyhedron. Abbildung 5. Seite eines Polyhedron H= H= H+ p pp pp p p H − pp pp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp pppp ppp ppp pp p p pppppppppppppppppppp ppp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp pppp ppp pp pp p p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp p pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp P ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppp pp p p pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp p p pp pp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp p p p pp ppp ppp ppp p H− + H ppp ppp ppp pppp pppp ppppp pppp ppp ppp pp p p p p p p p pp pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp p p ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp ppp pp ppppppppppppppppppppppppppppp ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp ppp pp p pppppppppppppppp ppp pp ppp ppp ppp ppp ppp ppp ppp ppp P ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp ppp pp p pp pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp p p p p pp ppp ppp ppp ppp ppp ppp pp p p pp p Def inition 12.18 (Seite eines Polyhedron). Sei P ⊆ Rn ein Polyhedron und H = {x ∈ Rn | ϕ(x) ≥ b } ein Halbraum. Dann ist P ∩ H eine Seite von P zur Stützebene H = := {x ∈ Rn | ϕ(x) = b }, falls P ∩ H ⊆ H = . Der Polyhedron P und die leere Megne ∅ sind (uneigentliche) Seiten von P zur Stützebene Rn . P ∩ H = ist genau dann eine Seite von P zur Stützebene H = , wenn P ⊆ H + := {x ∈ Rn | ϕ(x) ≥ b } oder P ⊆ H − := {x ∈ Rn | ϕ(x) ≤ b } , 1. Konvexe Mengen 139 d.h. H = schneidet P nicht im Inneren von P . Da ein Polyhedron der (endliche) Durchschnitt von Halbräumen ist, können wir jede Seite als endlichen Durchschnitt von Halbräumen darstellen: Lemma 12.19. Jede Seite S eines Polyhedron P ist selbst ein Polyhedron. Jede Seite von S ist ebenfalls eine Seite von P . Seiten der Dimension k bezeichnet man als k-Seite des Polyhedron P . Wir nennen 1-Seiten Kanten und (dim P − 1)-Seiten Flächen des Polyhedron P . Die Ecken E(P ) des Polyhedron sind die 0-Seiten. Satz 12.20. Sei P ⊆ Rn ein beschränkter Polyhedron. Dann ist P ein Polyeder mit P = kon(E(P )). Beweis. Die Behauptung ist trival für P = ∅ und k = 0 Wir beweisen die Aussage des Satzes für die übrigen Fälle durch Induktion über k := dim P ≥ 1: • Induktionsbasis k = 1: Es gilt P = [p1 , p2 ], E(P ) = {p1 , p2 } und P = kon(p1 , p2 ). • Induktionsschluß von k − 1 auf k: Der Polyhedron P habe die (k − 1)-Seiten P1 , . . . , Pm . Der Polyhedron P hat m Flächen P1 , . . . , Pm , wenn er der Durchschnitt von m Halbräumen ist und kein Halbraum redundant ist. Wir setzen zunächst voraus, dass P = kon(P1 , . . . , Pm ). (26) Dann gilt: [ [ m m (26) Ind.Ann. P = kon Pi = kon kon(E(Pi )) i=1 i=1 In Verbindung mit Übungsaufgabe 13.3 folgt, da die Ecken von P genau die Ecken der Pi sind: [ m P = kon E(Pi ) = kon(E(P )). i=1 Zu zeigen bleibt Gleichung (26), d.h. für alle p ∈ P ist p ∈ kon Sm Abbildung 6. Schiefe Seiten Hi , Hj p p p p p pp ppp ppp ppp ppp pppp pppp pppp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp p p p p p p p p p p p p p p ppp ppp ppp pppp pppp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppppppppppppppppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pppsppp ppp ppp ppp ppp p pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp p p pp pp pp p ppp ppp pppp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp ppp pp p p p p p p p p j ppp ppp pppp pppp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp ppp ppH ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp sppp ppp ppp ppp ppp ppppppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pppp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp p Hi P unbeschränkt Für den Fall p ∈ Sm i=1 Pi trifft dies offenbar zu, so dass im weiteren p∈P \ m [ i=1 Pi i=1 Pi . 140 12. Konvexe Geometrie T sei. Der Polyhedron ist der Durchschnitt P = m j=1 Hj von m ≥ 2 paarweise verschiedenen Halbräumen. Weil P beschränkt ist, gibt es Hi , Hj , die schief zu einander liegen (vergleiche Abbildung 6, der rechte Fall ist nicht möglich). Es existiert eine Gerade G durch p, so dass [p0 , p1 ] := G ∩ P beschränkt ist. Aus [ m p ∈ kon(p0 , p1 ) ⊆ kon Pi = kon(P1 , . . . , Pm ) i=1 folgt die Behauptung. Dies war zu zeigen. Wir wollen Satz 12.20 auf unbeschränkte Polyhedra erweitern. Die Gleichung (26) gilt für beliebige Polyhedra bis auf die Sonderfälle aff • P = Rn (Rn hat keine eigentliche Seite) und aff • P = H für einen Halbraum H (H hat genau eine eigentliche Seite H = ). aff Dabei bezeichnet =“ affin ismorph: ” Def inition 12.21 (Affin isomorph). Zwei Teilmenge M, M 0 ⊆ Rn sind affin isoaff morph, M = M 0 , wenn es eine affine Isomorphie ψ : aff(M ) → aff(M 0 ) mit ψ(M ) = M 0 gibt. Sei aff(M ) = b + V mit Untervektorraum V ⊆ Rn und b ∈ Rn . Die Abbildung ψ : b+V → b0 +V 0 ist ein affiner Isomorphismus, falls es einen Vektorraum-Isomorphismus ϕ : V → V 0 mit ψ(b + x) = b0 + ϕ(x) gibt. Lemma 12.22. Sei P ⊆ Rn ein mit n := dim P , P 6= Rn und P kein Sm Polyhedron Halbraum. Dann gilt P = kon i=1 Pi für die (n − 1)-Seiten Pi von P . Abbildung 7. Gerade G durch p p0 p pp ppp pp p ppppppp ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp ppp pp p p p p p0 p pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp p pppppppppppppppppppppp prp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp p ppp pp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppprppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp ppp pprp p1 ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppppppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp rp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp rp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp ppppppppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp p p p p p p p p p p p p p p p p rp p p p p p p p p p p p p p p p p p p p p p p1 S Beweis. Zu p ∈ P \ m 0 , p1] := G ∩ P i=1 Pi gibt es eine Gerade G durch p, so dass S[p m beschränkt ist (siehe Abildung 7). Aus p ∈ kon(p0 , p1 ) ⊆ kon i=1 Pi folgt die Behauptung. Es gilt: Satz 12.23. Sei P ⊆ Rn ein Polyhedron mit n := dim P , P 6= Rn und P kein Sk Halbraum. Dann gilt P = kon j=1 Hj für die eigentlichen Seiten H1 , . . . , Hk von P , die affine Räume bzw. Halbräume sind (Ecken sind Hj der Dimension 0). 1. Konvexe Mengen 141 Beweis. Wir zeigen die Aussage durch Induktion über n. Die Verankerung für n = 0 ist trivial. Sei n ≥ 1. Es gilt für die (n − 1)-Seitenflächen P1 , . . . , Pm von P : Lemma 12.22 P ⊆ [ [ m k Ind.Ann. kon Pi ⊆ kon Hj . i=1 j=1 Entweder ist die Induktionsvoraussetzung anwendbar auf Pi oder Pi = Hj für ein j. Die Seitenfläche der Dimension maximal n − 2 von P sind genau die Seitenfläche der Dimension höchstens n − 2 der P1 , . . . , Pm . Abbildung 8. Halbraum als Konvexe Hülle von Halbstrahlen p p pp ppp ppp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppp pp p p p p p p pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp p pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp pp p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp p p p p p p p p p p p p p p p p p p p p p p pp ] p ppp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp pp p p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp 3 p p p pp p p p p p pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp ppp p p pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp p p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp pp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp + pp pp pp pp pp pp pp pp pp p p p p p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp p p ppp ppp ppp ppp ppp ppp H pp ppp ppp ppp ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp pppp ppp ppp pp p pp pp pp pp pp pp pp pp pp pp pp pp pp p ^ pp ppp pppp pppp pppp ppp ppp pp p p p H= Def inition 12.24 (Halbgerade). Eine Teilmenge G ⊆ Rn heißt Halbgerade, falls es a, a0 ∈ Rn gibt mit G = {a0 + λa | λ ∈ R≥0 } . Jeder Halbraum im Rn ist die konvexe Hülle von n + 1 Halbgeraden (vergleiche Abbildung 8). Korollar 12.25. Eine Teilmenge P ⊆ Rn ist genau dann ein Polyhedron, wenn P die konvexe Hülle von endlich vielen Punkten und Halbgeraden ist. Die Zerlegung eines Polyhedron P ⊆ Rn in ein Polyeder P 0 und einen sogenannten Kegel C P = P0 + C (vergleiche Abbildung 9) ist eindeutig, sofern E(P ) = E(P 0 ) Es gilt dann für C: n Aus p ∈ P folgt p + λx ∈ C C := x ∈ R . für alle λ ∈ R≥0 Wir beschäftigen uns mit Kegeln in Abschnitt 3. 142 12. Konvexe Geometrie Abbildung 9. Zerlegung Polyhedron in Polyeder und Kegel - = + - 2. Funktionen über konvexen Mengen In diesem Abschnitt betrachten wir konvexe (konkave, lineare) Funktionen über konvexen Menge. Def inition 12.26 (Konvexe Funktion). Sei K ⊆ Rn eine konvexe Menge. Eine Funktion f : K → R heißt konvex, wenn für alle p, q ∈ K und λ ∈ [0, 1] gilt: f (λp + (1 − λ)q) ≤ λf (p) + (1 − λ)f (q). (27) Induktiv folgt aus Eigenschaft (27): Falls f eine konvexe Funktion ist, gilt für jede Konvexkombination der Punkte p0 , . . . , pk ∈ K: X X k k f λ i pi ≤ λi f (pi ). i=0 i=0 Im Fall K ⊆ R gilt für konvexe Funktionen, dass wie in Abbildung 10 die Funktionswerte nicht oberhalb der Verbindungsstrecke [p, q] liegen. Abbildung 10. Konvexe Funktion f p r r q Wir wollen eine konvexe Funktion f über einer konvexen Menge K minimieren. Ein Punkt p heißt lokale Minimalstelle, wenn in einer -Umgebung U (p) := {q ∈ K : kp − qk ≤ } um p die Funktionswerte f (p) ≤ f (q) sind. Für konvexe Funktionen ist jede lokale Minimalstelle p eine globale Minimalstelle, d.h. f (p) ≤ f (q) für alle q ∈ K: 2. Funktionen über konvexen Mengen 143 Satz 12.27. Sei K ⊆ Rn eine konvexe Menge und f : K → R eine konvexe Funktion. Dann ist jede lokale Minimalstelle von f globale Minimalstelle. Beweis. Sei p ∈ K eine lokale Minimalstelle. Dann existiert ein ∈ (0, 1), so dass die Funktionswerte der Punkte in der -Umgebung U (p) nicht kleiner als f (p) sind: ∀q ∈ U (p) : f (p) ≤ f (q). (28) Angenommen, p sei keine gobale Minimalstelle von f , d.h. es gäbe ein y ∈ K mit f (y) < f (p). Betrachten wir die Punkte der Verbindungsstrecke [p, y] ⊆ K, die in der -Umgebung U (p) liegen. Für λ ∈ (0, ) gilt, weil f eine konvexe Funktion ist: f (λp + (1 − λ)y) ≤ λf (p) + (1 − λ) f (y) < λf (p) + (1 − λ)f (p) = f (p), |{z} <f (p) so dass ein Punkte q ∈ [p, y] ∩ U (p) mit f (q) < f (p) existiert — Widerspruch zu (28). Aus Satz 12.27 folgt für eine konkave Funktion f , dass eine lokale Maximalstelle von f globale Maximalstelle ist: Def inition 12.28 (Konkave Funktion). Sei K ⊆ Rn eine konvexe Menge. Eine Funktion f : K → R heißt konkav, wenn −f eine konvexe Funktion ist. In der linearen Programmierung versuchen wir, eine lineare Funktion f über einem konvexen Polyeder zu optimieren (minimieren oder maximieren). Da lineare Funktionen sowohl konvex als auch konkav sind, hat man die globale Extremalstelle gefunden, wenn es sich um eine lokale Optimalstelle handelt. Satz 12.29. Sei P ⊆ Rn ein Polyeder und f : P → R eine konvex Funktion. Dann gilt sup f (p) = max f (p), p∈E(P ) p∈P d.h. f nimmt das Maximum an einer Ecke an. Beweis. Angenommen, es gäbe einen Nichtecke y ∈ P \ E(P ) mit f (y) > max f (p). p∈E(P ) Nach Korollar 12.15 ist der Punkt y eine Konvexkombination von Ecken p0 , . . . , pk P des Polyeders, d.h. y = ki=0 λi pi mit λi 6= 0. Weil die Funktion f konvex ist und Pk i=1 λ = 1 gilt, erhalten wir folgende Abschätzung: X X k k f (y) = f λ i pi ≤ λi f (pi ) ≤ max f (pi ) ≤ max f (p) i=0 i=0 i p∈E(P ) Dies ist ein Widerspruch zur Annahme f (y) > maxp∈E(P ) f (p). Weil eine lineare Funktion sowohl konvex als auch konkav ist, folgt aus Satz 12.29, dass beim Optimieren einer linearen Funktion über einem Polyeder eine optimale Ecke existiert: 144 12. Konvexe Geometrie Korollar 12.30. Sei P ⊆ Rn ein Polyeder und f : Rn → R eine lineare Funktion. Dann gilt: a) sup f (P ) = maxp∈E(P ) f (p). b) inf f (P ) = minp∈E(P ) f (p). Für Polyhedra gilt ein entsprechendes Resultat, dass wir in Kapitel 13 (Satz 13.5 auf Seite 156) beweisen werden: Korollar 12.31. Sei P ⊆ Rn ein Polyhedra mit E(P ) 6= ∅ und f : Rn → R eine lineare Funktion. Dann gilt a) sup f (P ) = maxp∈E(P ) f (p), sofern sup f (P ) < +∞. b) inf f (P ) = minp∈E(P ) f (p), sofern inf f (P ) > −∞. Der Satz von Minkowski, Korollar 12.15 auf Seite 137, wonach ein Polyeder die konvexe Hülle seiner Ecken ist, gilt nicht nur für Polyeder, sondern für beliebige konvexe, abgeschlossene, beschränkte Mengen. Analog zu Satz 12.29 nimmt eine konvexe Funktion f ihr Maximum an einer Extremalstelle an, unter der Voraussetzung, dass die konvexe Menge Extremalpunkte hat und f beschränkt ist: Satz 12.32. Sei K ⊆ Rn eine konvexe, abgeschlossene, beschränkte Menge mit E(K) 6= ∅ und f : K → R eine konvexe Funktion. Dann gilt: a) K = kon(E(K)). b) sup f (K) = maxp∈E(K) f (p), sofern sup f (K) < +∞. Abbildung 11. Trennungslemma H= ϕ(x) ≤ ϕ(x0 ) q r w y p p p p p pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp p pp pp pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp pp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp p pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp K pppppppppppppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp spppppx pp pp ppp ppp0ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp p pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp p p pp pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pppppppppppppppppppp r Zum Abschluß formulieren und beweisen wir das sogenannte Trennungslemma, das später zu Dualitätsbeweisen verwendet wird: Satz 12.33 (Trennungslemma). Sei K ⊆ Rn eine konvexe, abgeschlossene Menge und q ∈ Rn \ K ein Punkt außerhalb von K. Dann gibt es eine lineare Funktion ϕ : Rn → R mit ϕ(x) > ϕ(q) für alle x ∈ K. 3. Kegel und Farkas’ Lemma 145 Beweis. Sei h·, ·i das Standardskalarprodukt und k·k die euklidsche Norm, d.h. kxk = p hx, xi. Die Funktion x 7→ kx − qk nimmt ihr Minimum für x ∈ K im nächsten“ ” K-Punkte x0 zu q an (vergleiche Abbildung 11). Setze: ϕ(x) := hx, x0 − qi = (x0 − q)T x. Sei H = := {x ∈ Rn | ϕ(x) = ϕ(x0 ) } wie in Abbildung 11. Der Richtungsraum R(H = ) der Hyperebene H = ist orthogonal zu x0 − q. Es gilt für den vorgegebenen Punkt q ∈ Rn \ K: hq, x0 − qi = ϕ(q) ≥ ϕ(x0 ) = hx0 − q + q, x0 − qi = kx0 − qk2 + hq, x0 − qi . Angenommen, es existierte ein y0 ∈ K mit ϕ(y) < ϕ(x0 ). Zu Vereinfachung der Notation sei q := 0. Weil K konvex ist, gilt [x0 , y0 ] ⊆ K, d.h. zu jedem λ ∈ [0, 1] gilt y(λ) := x0 + λ(y0 − x0 ) ∈ K. Wir zeigen, dass die Norm von y := y(λ) von x0 weg, also mit zunehmendem λ, zunächst abnimmt, was der Wahl von x0 widerspricht. Es ist: f (λ) := kx0 k2 − kyk2 = hx0 , x0 i − hy, yi = −λ2 hy0 − x0 , y0 − x0 i + 2λ(hx0 , x0 i − hx0 , y0 i) Die Ableitung f 0 der Funktion f : R → R an der Stelle λ = 0 liefert: f 0 (0) = 2(hx0 , x0 i − hx0 , y0 i). Es existiert ein > 0, so dass für y = y(λ) mit 0 < λ < gilt: kyk < kx0 k Dies ist ein Widerspruch zur Wahl von x0 , so dass unsere Annahme, es gäbe ein y0 ∈ K mit ϕ(y) < ϕ(y0 ) falsch ist. Im Beweis zum Trennungslemma ist H = Stützebene durch x0 , das auf dem Rand Rd(K) der Menge K liegt. Zu jedem x0 ∈ Rd(K) gibt es eine Stützebene mit x0 ∈ H = und K ⊆ H + . 3. Kegel und Farkas’ Lemma Zur Vorbereitung des Beweises zu Farkas’ Lemma führen wir die Begriffe des Kegels und Polydehrals ein und weisen Eigenschaften nach. Def inition 12.34 (Kegel, Polyhedral). Ein (konvexer) Kegel (Cone) ist eine nichtleere Teilmenge C ⊆ Kn , so dass mit c1 , c2 ∈ C auch λ1 c2 + λ2 c2 ∈ C für alle λ1 , λ2 ∈ R≥0 gilt. Ein Kegel der Form C = {x | Ax ≤ 0 } heißt polyhedral. Ist (Ci )i∈I eine Familie von Kegeln, dann ist auch der Durchschnitt Kegel. T i∈I Ci ein 146 12. Konvexe Geometrie Abbildung 12. Beispiel Kegel x2 6 pp pppp pp pp pp ppppp ppppp ppppp ppppp ppppp pppp pp pp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp ppp p pp pp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp pp p pppppppppppppppppppp p ppp ppp ppp ppp ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppp pp pp pp ppppp ppppp ppppp ppppp ppppp ppppp ppppp C pppppppppppppppppppp p p p p p p p p p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp p ppp ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp pppp pppp pppp pppp pppp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp p p p p p p ppp ppp ppp pp pp pp pp pp pp p p p p p - x1 0 Def inition 12.35 (Endlich erzeugter Kegel). Zu einer Teilmenge M ⊆ Rn ist \ cone(M ) := C. C⊇M C Kegel der kleinste Kegel, der M umfasst. In Übungsaufgabe 15.1 zeigen wir: Satz 12.36. Für jede Menge M ⊆ Rn gilt: ) ( k X k ∈ N und p0 , . . . , pk ∈ M , cone(M ) := λ i pi . λ0 , . . . , λ k ≥ 0 i=0 Vergleicht man diese Darstellung mit der einer konvexen Menge aus Satz 12.5 auf Seite 134, so folgt cone(M ) = R≥0 · kon(M ). Lemma 12.37. Der Durchschnitt von beliebig vielen, endlich erzeugten Kegel ist endlich erzeugt. Beweis. Der Durchschnitt von Polyedern ist wieder ein Polyeder, sofern er nicht leer ist. Der Durchscnitt von Kegel ist nie leer, denn er enthält den Nullpunkt. Def inition 12.38 (Dualer Kegel). Der duale Kegel zu einem Kegel C ⊆ Rn ist C ∗ := y ∈ Rn xT y ≥ 0 für alle x ∈ C . C ∗ ist ein Kegel, denn zu y1 , y2 ∈ C ∗ gilt für x ∈ C und λ1 , λ2 ≥ 0: xT (λ1 y1 + λ2 y2 ) = λ1 xT y1 +λ2 xT y2 ≥ 0 + 0 = 0, | {z } | {z } ≥0 so dass aus y1 , y2 ∈ C∗ folgt λ1 y1 + λ2 y2 ∈ ≥0 C ∗. 3. Kegel und Farkas’ Lemma 147 Abbildung 13. Beispiel Kegel und dualer Kegel 6 0 C∗ p p p pp pp pp ppp ppp ppp ppp pppp pppp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp p p p p p p p p p p p p pp pp pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pqpqpp ppp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp p p p pp pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pppC ppppppppppppppppp p p pp pp ppp ppp ppp ppp ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp p p pp pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp p p pp pp ppp ppp ppp ppp ppp ppp ppp ppp p p p pp pp ppp Beispiel 12.39. Abbildung 13 zeigt einen Kegel C und den dualen Kegel C ∗ . Seien Csub , C ⊆ R2 Kegel mit Csub ⊆ C, dann gilt für die dualen Kegel die umgekehrte ∗ Inklusion Csub ⊇ C ∗ . Falls C = R2 , dann besteht der duale Kegel nur aus dem Ursprung C ∗ = {0}. Wir haben im Kapitel 7 über lineare Codes gesehen, dass der duale des dualen Codes C ⊥ der Ausgangscode C ist. Die gleiche Aussage trifft auch auf den dualen eines dualen Kegels C ∗ zu, sofern C abgeschlossen ist: Satz 12.40. Sei C ⊆ Rn ein abgeschlossener Kegel. Dann gilt (C ∗ )∗ = C. Beweis. Es gilt: C ∗ = y ∈ Rn (C ∗ )∗ = z ∈ Rn T x y ≥ 0 für alle x ∈ C T y z ≥ 0 für alle y ∈ C ∗ Nach Definition gilt y T x = xT y ≥ 0. für alle x ∈ C und y ∈ C ∗ , so dass C ⊆ (C ∗ )∗ . Zu zeigen bleibt die Inklusion (C ∗ )∗ ⊆ C. Angenommen, diese Inklusion sei falsch, d.h. es existiert ein z ∈ (C ∗ )∗ mit z ∈ / C. Sei x ∈ Rn ϕ(x) := uT x = u0 die Trennungsebene zu z und C. Gemäß Trennungslemma, Satz 12.33 auf Seite 144, gilt: • ϕ(z) = uT z ≤ u0 und • ϕ(x) = uT x ≥ u0 für alle x ∈ C. Dann ist ϕ(x) für x ∈ C nach unten beschränkt. Die Abbildung ϕ(x) nimmt ihr Minimum 0 an, und zwar an der Stelle x = 0. Die Abschätzung uT z ≤ u0 ≤ uT x = ϕ(x) für alle x ∈ C impliziert uT z ≤ 0 (wegen ϕ(0) = 0 und 0 ∈ C). Aus uT x ≥ 0 für alle x ∈ C folgt u ∈ C ∗ . Wir erhalten den Widerspruch z ∈ / (C ∗ )∗ , denn aufgrund uT z < 0 ist die Forderung y T z ≥ 0 nicht erfüllt für alle y ∈ C ∗ . Satz 12.41. Sei C ⊆ Rn ein abgeschlossener Kegel. Dann gilt: 148 12. Konvexe Geometrie a) C ist genau dann endlich erzeugt, wenn C ∗ endlich erzeugt ist. b) C ist genau dann endlich erzeugt, wenn C polyhedral. Beweis. Zu x ∈ R sei y1 , . . . , yn−1 eine Basis von span(x)⊥ = (xR)⊥ . Der duale Kegel cone(x)∗ = cone(x, y1 , . . . , yn−1 ) ist endlich erzeugt. Abbildung 14. Basis von (xR)⊥ x 0 (xR)⊥ a) Sei C = cone(x1 , . . . , xk ) endlich erzeugt. Dann gilt C ∗ = cone(x1 , . . . , xk )∗ = k \ cone(xi )∗ , (29) i=1 denn X k i=1 λi xi T ·y = k X λi xTi y ≥ 0 i=1 folgt xTi y ≥ 0 für alle i und umgekehrt. Also ist der duale Kegel C ∗ der Durchschnitt von endlich erzeugten Kegeln und nach Übungsaufgabe 15.3 somit endlich erzeugt. Wir haben gezeigt, dass mit C ebenfalls der duale Kegel C ∗ endlich erzeugt ist. Weil C nach Voraussetzung abgeschlossen ist, wenden wir Satz 12.40, also (C ∗ )∗ = C, an und erhalten die Rückrichtung der Behauptung. b) Angenommen, C = {x | Ax ≤ 0 } sei Polyhedral. Bezeichne aT1 , . . . , aTm die Zeilenvektoren der Matrix A. Aufgrund von Gleichung (29) gilt: C= m \ cone(aTi )∗ = cone(aT1 , . . . , aTm )∗ . i=1 Nach Übungsaufgabe 15.3 ist C als Durchschnitt von endlich erzeugten Kegeln ebenfalls endlich erzeugt. 3. Kegel und Farkas’ Lemma 149 Sei umgekehrt C = cone(x1 , . . . , xk ) ein endlich erzeugter Kegel. Nach Satz 12.40 gilt: ∗ ∗ C = cone(x1 , . . . , xk )∗ = y y T xi ≥ 0 für i = 1, 2, . . . , k . | {z } =C ∗ C ∗ polyhedral. Also ist der endlich erzeugte, duale Kegel Nach Satz 12.40 ∗ folgt: Falls C endlich erzeugt ist, dann ist ebenfalls C = (C ∗ )∗ endlich erzeugt und polyhedral. Dies war zu zeigen. Satz 12.42 (Farkas’ Lemma). Für A ∈ Mm,n (R) und c ∈ Rm sind folgende Aussagen äquivalent: a) Für alle x ∈ Rm mit Ax ≥ 0 gilt cT x ≥ 0. b) Es existiert ein y ∈ Rm mit y ≥ 0 und cT = y T A. Beweis. Sei C der von den Zeilenvektoren aT1 , . . . , aTm der Matrix A erzeugten Kegel. Gemäß Satz 12.36 gilt: (m ) X C := cone(aT1 , . . . , aTm ) = λi aTi λ1 , . . . , λm ≥ 0 . i=1 aTi x Da die Forderung Ax ≥ 0 und ≥ 0 für i = 1, . . . , m gleichwertig sind, haben wir n für alle x ∈ R folgende Äquivalenz: Ax ≥ 0 ⇐⇒ x ∈ C ∗. Damit folgt: • Aussage a) ist äquivalent zu c ∈ (C ∗ )∗ . • Aussage b) ist äquivalent zu c ∈ C. Weil C ein abgeschlossener Kegel ist, erhalten wir C = (C ∗ )∗ aus Satz 12.40, d.h. beide Aussagen sind gleichwertig. Wir folgern aus Farkas’ Lemma, Satz 12.42, die nachstehende Variante: Korollar 12.43 (Farkas’ Lemma – Variante I). Für A ∈ Mm,n (R) und b ∈ Rn sind folgende Aussagen äquivalent: a) Es existiert ein x ≥ 0 mit Ax ≤ b. b) Für alle y ∈ Rm mit y T A ≥ 0 gilt y T b ≥ 0. Beweis. Setze Aext := (A, Im ) ∈ Mm,m+n (R). Folgende Aussagen sind äquivalent, denn Ax ≤ b kann man gleichwertig schreiben als Ax + s = b mit s ≥ 0: a) Es existiert ein x ∈ Rn mit Ax ≤ b. b’) Es existiert ein xext ≥ 0 mit Aext xext = b. Wir wenden Farkas Lemma 12.42 mit A := AText und c := b auf Aussage b’) an und erhalten, dass a) Es existiert ein x ≥ 0 mit Ax ≤ b. 150 12. Konvexe Geometrie b) Für alle y ∈ Rm mit y T Aext ≥ 0 gilt bT y ≥ 0. äquivalent sind. In Übungsaufgabe 17.3 geben wir eine weitere Variante von Farkas’ Lemma: Korollar 12.44 (Farkas’ Lemma – Variante II). Für A ∈ Mm,n (R) und b ∈ Rn sind folgende Aussagen äquivalent: a) Es existiert ein x ∈ Rn mit Ax ≤ b. b) Für alle y ∈ Rm mit y ≥ 0 und y T A = 0 gilt y T b ≥ 0. 4. Eulers Polyederformel Wir wollen zum Abschluß des Kapitels Eulers Polyederformel für Polyeder mit einfachen Ecken beweisen: Satz 12.45 (Euler, Poincaré 1893/99). Sei P ein d-Polyeder, fi bezeichne die Anzahl der i-Seiten von P . Dann gilt: d−1 X (−1)i fi = 1 + (−1)d+1 . i=0 Für die Anzahl der Ecken schreibt man V := #E(P ) (vertices), für die Anzahl der Kanten E (edges) und F für die Anzahl der Flächen (faces). Für d = 2, 3 lautet die Euler’sche Polyederformel: V −E =0 V −E+F =2 d=2: d=3: Man vergleiche die Ergebnisse mit den Beispielen in Abbildung 15. Für d = 2 gilt V = E = 5, so dass V − E = 5 − 5 = 0 ist. Der 3-Simplex hat V = 4 Ecken, E = 6 Kanten und F = 4 Flächen, so dass V − E − F = 4 − 6 + 4 = 2 ist. Abbildung 15. Euler’sche Polyederformel d = 2, 3 s s s s s s s s s Poincarés Beweis basiert auf algebraischen Methoden. Wir wollen den Beweis mit unseren Mitteln für Polyeder P mit einfachen Ecken führen. Wir nehmen an, jede Ecke p ∈ E(P ) des d-Polyeders habe d Nachbarecken, und führen den Beweis durch Induktion über die Anzahl #E(P ) der Ecken. Für die Induktionsverankerung sei #E(P ) = d + 1, d.h. P ist ein d-Simplex. Im d-Simplex ist eine i-Seite S charakterisiert durch eine Auswahl von i + 1 aus d + 1 4. Eulers Polyederformel 151 Ecken, die auf S liegen:2 fi = d+1 . i+1 (30) Für 0-Seiten ist d+1 = d + 1, denn eine 0-Seite ist eine der d + 1 Ecken. Für 1-Seiten 1 d(d+1) d+1 ist 2 = 2 , denn jeweils zwei der Ecken bilden eine Kante. Wegen Gleichung (30) gilt: d−1 X d−1 X d+1 (−1) fi = (−1) i+1 i=0 i=0 d−1 X i−1 d + 1 = (−1) i i=1 d X i d+1 =− (−1) i i=1 d+1 X i d+1 0 d+1 d+1 d + 1 =− (−1) + (−1) + (−1) . i 0 d+1 i i i=0 Wegen d+1 0 = 1 und d−1 X d+1 d+1 = 1 erhalten wir die Behauptung i d+1 (−1) fi = 1 + (−1) − i=0 denn aus (a + b)n = Summe Null ist. d+1 X |i=0 Pn i=0 n i i (−1) d+1 i {z = 1 + (−1)d+1 , } =(1−1)d+1 ai bn−i folgt mit a = −1, b = 1 und n = d + 1, dass die Für den Induktionsschluß erniedrigen wir die Anzahl #E(P ) der Ecken. Wähle e ∈ E(P ). Sei H = die Hyperebene durch die d Nachbarecken von e. Sei o.B.d.A. e ∈ H + . Wie haben den Polyeder P zerlegt in • einen d-Simplex P ∩ H + und • einen Polyeder P ∩ H − mit weniger als #E(P ) Ecken. Bezeichne mit fi die Anzahl der i-Seiten von P und mit fi0 die Anzahl der i-Seiten von P ∩ H − . Die Behauptung folgt aus der Induktionsannahme angewendet auf P ∩ H − , wenn d−1 X (−1)i (fi − fi0 ) = 0. (31) i=0 2Für 0 ≤ k ≤ n ist der Binomialkoeffizient erklärt als n k n! := k!(n−k)! , d.h. gleich der Anzahl der Möglichkeiten, eine Teilmenge von k Elementen aus einer Menge von n Elementen auszuwählen. Insbesondere gilt n = 1 und n0 = 1. n 152 12. Konvexe Geometrie Wir zeigen zunächst d fi − i fi0 = d fi − +1 i für i ≤ d − 1 (32) für i = d − 1. P ∩H + ist ein d-Simplex. F”ur i < d−1 ist fi −fi0 die Anzahl der i-Seiten von P ∩H + durch e. Eine i-Seite von P ∩ H + durch e ist charakterisiert durch die Auswahl von i der d Nachbarecken von e in P ∩ H + . Für i = d − 1 ist fi die Anzahl der (d − 1)-Seiten von P ∩ H + durch e minus 1. Wir wenden Gleichung (32) an und erhalten (31): d−1 d−1 X X i 0 i d (−1) (fi − fi ) = (−1) − (−1)d−1 i i=0 i=0 d X d d i d −(−1) −(−1)d−1 = (−1) d i |{z} } |i=0 {z =(1−1)d =0 = 0. Dies komplettiert den Induktionsschritt. =1 Kapitel 13 Lineare Programmierung Wir haben in Kapitel 12 die globalen Extremalstellen von konvexen und konkaven Funktionen über konvexen Mengen untersucht. In diesem Kapitel beschäftigen wir uns mit dem Fall linearer Funktionen und lernen mit dem Simplex-Algorithmus ein praktikales Verfahren kennen, um eine Lineareform unter Berücksichtigung von linearen Ungleichungen zu optimieren. 1. Einleitung In der linearen Programmierung maximiert oder minimiert man eine Linearform in n Variablen x1 , . . . , xn unter Beachtung von m Restriktionen, die in Form linearer Gleichungen oder Ungleichungen gegeben sind, und der Forderung, dass die Variablen nicht negativ sind: n n≤o n P minimiere P c x , so dass aij xj = bi für i = 1, 2, . . . , m ≥ maximiere j=1 j j j=1 xj ≥ 0 für j = 1, 2, . . . , n. Eine solche Aufgabe nennt man lineares Programm und das Lösen lineares Programmieren. Die zu optimierende Linearform heißt Ziel- oder auch Objektfunktion, im Fall einer Minimierungsaufgabe spricht man angelehnt an die wirtschaftliche Interpretation von der Kostenfunktion. Die Forderung x1 , . . . , xn ≥ 0 wird als Nichtnegativitätsbedingung bezeichnet. Falls eine Variable xi auch negative Werte nehmen darf, also xi eine freie Variable ist, besteht eine Möglichkeit, xi durch die Differenz yi − zi für zwei neue Variable yi ,zi zu ersetzen und diese der Nichtnegativitätsbedingung zu unterwerfen. (Variablen-Splitting). Zur Vereinfachung der Darstellung verwenden wir die übliche Matrix/VektorSchreibweise. Da die Maximierung von cT x äquivalent zur Minimierung von −cT x ist, genügt es, Minimierungsaufgaben zu betrachten. Bei den Restriktionen beschränken wir uns auf ≤“-Ungleichungen, da die Bedingung ai x ≥ bi gleichwertig zu −ai x ≤ −bi ” 153 154 13. Lineare Programmierung ist und die Gleichung ai x = bi äquivalent zu den beiden Ungleichungen ai x ≤ bi , −ai x ≤ −bi ist. Def inition 13.1 (Kanonische Form eines linearen Programms). Die kanonische Form eines linearen Programms in n Variablen mit m Restriktionen lautet minimiere cT x, so dass Ax ≥ b x ≥ 0, wobei A eine m × n-Matrix, b ein Spaltenvektor mit m Einträgen und c ein Spaltenvektor mit n Einträgen ist. Georg Dantzig arbeitete während des Zweiten Weltkrieges bei der US-Luftwaffe an der Aufstellung von Plänen (Programmen) zur Logistik und Produktion. Für komplexere Programme suchte Dantzig nach einer mechanischen Methode zum Lösen. Als Modell übernahm er das Input-Output-Modell von Leontief aus dem Jahr 1932. In diesem Modell sind die Beziehungen zwischen den Produktionsfaktoren beschränkt und die Einsatzmenge der Ressourcen und die Ausbringungsmenge stehen in einem proportionalen Verhältnis. Dantzig ergänzte die Optimierung nach einer linearen Zielfunktion und entwickelte im Sommer 1947 den Simplex-Algorithmus.1 Der Wirtschaftswissenschaftler Koopmans erkannte die Bedeutung der linearen Programmierung für die Unternehmensplanung (Operation-Research) und legte den Grundstein der Popularität der linearen Programmierung in den Wirtschaftwissenschaften. Auf ihn geht auch die Bezeichnung lineare Programmierung“ zurück: Er hatte 1951 diese ” Bezeichnung als Alternative zu Dantzigs Titel Programming in a linear Structure“ ” (Report der US-Luftwaffe 1948) vorgeschlagen. Für den Erfolg der linearen Programmierung ist neben den Anwendungen in der Unternehmensplanung auch die Entwicklung der ersten Rechenmaschinen entscheidend: Mit dem Simplex-Algorithmus konnten lineare Programme gelöst werden, die bislang zu komplex waren. Parallel zur Entwicklung im Westen hatte sich seit 1939 der russische Mathematiker Kantorvicz mit speziellen Produktionsproblemen und deren mathematischer Struktur beschäftigt sowie Verfahren für diese Klasse linearer Programme entwickelt. Die Arbeiten blieben im Osten unbeachtet und im Westen bis Ende der fünfziger Jahre gänzlich unbekannt. Die königlich schwedische Akademie der Wissenschaften zeichnete 1975 Koopmans und Kantorvicz mit dem Nobelpreis für Wirtschaftswissenschaften aus. Dantzig wurde nicht ausgezeichnet, da die Akademie dessen Beitrag als zu mathematisch für eine Auszeichnung in Wirtschaftswissenschaften einstufte. 2. Ecken und Basislösungen Wir haben bereits die kanonische Form eines linearen Programms in n Variablen mit m Restriktionen kennengelernt: minimiere cT x, so dass Ax ≥ b x ≥ 0, 1Die Idee des Simplex-Algorithmus’, iterativ von einer Ecke des Polyhedrons zu einer benach- barten Ecke mit niedrigem Zielwert zu gehen, ist jedoch nicht neu: Sie fand sich bereits in Arbeiten von Fourier (1823) und de la Vallée-Poussin (1911), die allerdings unbeachtet blieben. 2. Ecken und Basislösungen 155 wobei A eine m×n-Matrix, b ein Spaltenvektor mit m und c einer mit n Einträgen ist. Für Beweise und Algorithmen sind Restriktionen der Form Ax = b statt Ax ≥ b vorteilhafter. Durch Einführen von m Slack-Variablen (auch Schlupfvariablen genannt) r mit r ≥ 0 transformieren wir Ax ≥ b in Ax − r = b, d.h. ergänzen die Koeffizientenmatrix rechts durch eine (negierte) Einheitsmatrix und erhalten ein äquivalentes Programm in n + m Variablen: Def inition 13.2 (Standardform eines linearen Programms). Die Standardform eines linearen Programms in n Variablen mit m Restriktionen lautet minimiere cT x, so dass Ax = b x ≥ 0, wobei A eine m × n-Matrix, b ein Spaltenvektor mit m Einträgen und c ein Spaltenvektor mit n Einträgen ist. Ein lineares Programm in Standardform überführt man in die kanonische Form mittels Ersetzen der Gleichheit Ax = b durch Ax ≤ b und −Ax ≤ −b. Wir nehmen meists an, dass die Koeffizientenmatrix vollen Zeilenrang hat, d.h. keine Restriktion eine Linearkombination der übrigen und somit redundant bzw. nicht mit den übrigen erfüllbar ist. Insbesondere gilt dann m ≤ n. Def inition 13.3 (Zulässigkeitsbereich). Zum linearen Programm in Standardform bezeichne Zstd := {x ∈ Rn | Ax = b, x ≥ 0 } die Menge aller zulässigen Lösungen, den Zulässigkeitsbereich. Im Fall Zstd = ∅ heißt das Programm widersprüchlich. Die Menge aller optimalen, zulässigen Lösungen sei Ω(c, Zstd ). Der Zielwert ist beschränkt, wenn inf cT x x ∈ Zstd > −∞. Sonst kann man den Zielwert beliebig reduzieren und erhält Ω(c, Zstd ) = ∅. Der Zulässigkeitsbereich Zstd ist als Durchschnitt endlich vieler Halbräume ein Polyhedron. Sofern der Zielwert des linearen Programms beschränkt ist, stellt die Menge Ω(c, Zstd ) der optimale Lösungen ebenfalls ein Polyhedron dar, denn Ω(c, Zstd ) = Zstd ∩ x ∈ Rn cT x ≥ copt für copt := min cT x x ∈ Zstd . Falls Ω(c, Zstd ) mehr als eine optimale Lösung enthält, sprechen wir von Mehrdeutigkeit. Eine Lösung x ∈ Zstd ist eine Ecke des Zulässigkeitsbereichs bzw. des Polyhedrons Zstd , wenn kein y 6= 0 mit x ± y ∈ Zstd existiert. Die Menge der Ecken des Zulässigkeitsbereichs bezeichnen wir mit E(Zstd ). Falls der Ursprung eine zulässige Lösung ist, so stellt der Ursprung eine Ecke dar, denn für alle y 6= 0 sind 0 ± y nicht gleichzeitig zulässige Lösungen, weil ±y ≥ 0 nicht gilt. Lemma 13.4. Aus 0 ∈ Zstd folgt 0 ∈ E(Zstd ). Falls x ∈ Zstd keine Ecke ist, gilt dann x 6= 0. Das Konzept einer Ecke ist grundlegend für die lineare Programmierung: Es existiert immer eine optimale Ecke, sofern die Lösungsmenge Zstd nicht leer und der minimale Zielwert endlich ist. 156 13. Lineare Programmierung Satz 13.5. Der Zulässigkeitsbereich Zstd sei nicht leer und der optimale Zielwert des linearen Programms sei endlich. Dann enthält Ω(c, Zstd ) eine Ecke von Zstd , d.h. es gibt eine Ecke des Zulässigkeitsbereichs, die optimal ist. Beweis. Sei x ∈ Ω(c, Zstd ) eine optimale Lösung des linearen Programms. Es genügt, eine Ecke p mit cT x ≥ cT p zu finden. Wir versuchen, in mehreren Schritten aus x eine Ecke zu erhalten. Falls x eine Ecke ist, sind wir fertig. Sei x ≥ 0 keine Ecke, d.h. es existiert ein y 6= 0 mit x ± y ∈ Zstd . Nach Lemma 13.4 gilt x 6= 0. Insbesondere ist x ± y ≥ 0 sowie Ax + Ay = b und Ay = 0 wegen Ax = b. Durch einen möglichen Übergang von y auf −y erreichen wir cT y ≤ 0. (33) Falls cT y = 0, wähle y = (y1 , . . . , yn ) so, dass ein Eintrag yj < 0 existiert. Wir führen eine Fallunterscheidung bezüglich des Vektors y durch: a) Es gibt einen Eintrag j mit yj < 0. Wähle λ > 0 maximal mit x + λy ≥ 0. Der Vektor xneu := x + λy ≥ 0 hat im Vergleich zu x mindestens eine Null-Komponente mehr. Für xneu ∈ Zstd genügt der Nachweis von Axneu = b: Axneu = A(x + λy) = Ax + λ · (Ay) = Ax = b. | {z } =0 b) Es gilt y ≥ 0 (und nach Wahl von y auch c 6= 0). Für jedes λ ≥ 0 ist x + λy ∈ Zstd wegen A(x + λy) = Ax + λ · (Ay) = Ax = b | {z } =0 cT y und x+λy ≥ x ≥0. Falls < 0ist, verstoßen wir gegen die Endlichkeitsbe dingung von inf cT x x ∈ Zstd . Gemäß Voraussetzung (33) gilt cT y = 0. Da nach Wahl y 6= 0 und c 6= 0 sind, muß y mindestens eine negative Komponente haben — Widerspruch zu Fall b). Wiederhole den ersten Fall, bis wir eine Ecke erhalten. Da der neue Vektor im Vergleich zum Vorgängervektor eine Null-Komponente mehr hat, erhält man nach maximal n Iterationen eine Ecke. Damit ist Satz 12.31 auf Seite 144 bewiesen, denn ein Polyhedra kann man als Zulässigkeitsbereich eines linearen Programms auffassen. Aus Satz 13.5 folgt ferner wegen Zstd = Ω(0, Zstd ): Korollar 13.6. Der nicht leere Zulässigkeitsbereich Zstd hat eine Ecke. Um eine optimale Lösung eines linearen Programms zu finden, genügt es nach Satz 13.5 die (endlich vielen) Ecken des Zulässigkeitsbereichs zu untersuchen. Wir haben Ecken bisher geometrisch beschrieben, im folgenden wollen wir eine algebraische Charakterisierung herleiten. Dazu identifizieren die Ecken x ∈ E(Zstd ) durch Unterteilung von x1 , . . . , n in Basis- und Nichtbasis-Variablen. Für eine nicht leere 2. Ecken und Basislösungen 157 Indexmenge I ⊆ {1, 2, . . . , n} sei AI die Matrix bestehend aus den Spaltenvektoren von A mit aufsteigend angeordneten Indizes in I und analog xI den Vektor bestehend aus den entsprechenden Einträge des Vektors x. Lemma 13.7. Sei x ∈ Zstd und I := {i | xi > 0 }. Genau dann gilt x ∈ E(Zstd ), wenn I = ∅ oder die Spalten von AI linear unabhängig sind. Beweis. Wir zeigen die negierte Äquivalenz: Der Punkt x ∈ Zstd ist genau dann keine Ecke von Zstd , wenn I 6= ∅ und die Spalten von AI linear abhängig sind. ⇒“ AI habe linear abhängige Spalten, d.h. insbesondere ist I 6= ∅ und x 6= 0. ” Dann existiert ein Vektor yI 6= 0 mit AI · yI = 0. Wir ergänzen yI durch Null-Komponenten zu y ∈ Rn mit Ay = 0. Wähle λ > 0 mit x ± λy ≥ 0. Dies ist wegen yi = xi = 0 für i ∈ / I und xi > 0 für i ∈ I möglich. Aus A(x ± λy) = Ax ± λ · (Ay) = Ax = b | {z } =0 erhalten wir x ± λy ∈ Zstd , so dass x ∈ / E(Zstd ). ⇐“ Der Punkt x sei keine Ecke. Dann existiert nach Definition ein y 6= 0 mit ” x ± y ∈ Zstd und es ist x 6= 0. Wegen Ax + Ay = b Ax − Ay = b gilt Ay = 0. In Verbindung mit x±y ≥ 0 erhalten wir: Aus xi = 0 (äquivalent i∈ / I) folgt yi = 0. Sei yI der Vektor, der aus den Einträgen I von y besteht. Nach vorheriger Überlegung und y 6= 0 ist yI 6= 0. Das heißt, dass 0 = Ay = AI · yI und AI hat wegen yI 6= 0 linear abhängige Spalten. Die Auswahl einiger Spalten der Koeffizientenmatrix A wie in Lemma 13.7 entspricht einer Partition der Indizes {1, 2, . . . , n} in zwei Mengen: Def inition 13.8 (Basis-Nichtbasis-Partition). Zum linearen Programm in Standardform heißt eine Partition (B, N ) von {1, 2, . . . , n} Basis-Nichtbasis-Partition, wenn die Spaltenvektoren der Matrix von AB eine Basis des Rm bilden (insbesondere |B| = m). Sie ist zulässig, wenn der Koordinatenvektor xB := A−1 B b von b bezüglich der Spaltenvektoren von AB keine negativen Einträge hat. Die Variablen xi mit i ∈ B nennt man Basis- und die mit i ∈ N Nichtbasisvariablen der Partition. Jeder (zulässigen) Basis-Nichtbasis-Partition ordnen wir eine (zulässige) Lösung zu: Def inition 13.9 (Basislösung). Zu einer Basis-Nichtbasis-Partition (B, N ) bezeichne Φ(B, N ) die zugehörige Basislösung x mit xB := A−1 B b und xN := 0. Wir nennen den Zielwert der zugehörigen Basislösung Φc (B, N ) := cT · Φ(B, N ) = cTB A−1 B b den Zielwert der Basis-Nichtbasis-Partition (B, N ). 158 13. Lineare Programmierung Im folgenden Satz stellen wir die Beziehung zwischen den Ecken des Zulässigkeitsbereichs und den zulässigen Basis-Nichtbasis-Partitionen dar. Zwar ist die Basislösung einer zulässigen Basis-Nichtbasis-Partition eine Ecke, umgekehrt können aber einer Ecke mehrere zulässige Basis-Nichtbasis-Partitionen zugeordnet werden. Satz 13.10. Die m × n-Koeffizientenmatrix A habe vollen Zeilenrang m ≤ n. Dann gilt: a) Zur zulässigen Basis-Nichtbasis-Partition (B, N ) ist Φ(B, N ) ∈ E(Zstd ). b) Jede Ecke x ∈ E(Zstd ) ist eine zulässige Basislösung zur Partition (B, N ), ergänzt man {i | xi > 0 } gegebenenfalls durch Hinzunahme von Indizes weiterer, linear unabhängiger Spaltenvektoren zu B mit Mächtigkeit m. Beweis. Für die erste Aussage beachte, dass für x := Φ(B, N ) nach Definition xB = A−1 B b ≥ 0 und wegen xN = 0 insgesamt x ≥ 0 gilt. Aus Ax = AB xB + AN xN = AB A−1 B b + AN 0 = b folgt x ∈ Zstd . Da nach Definition rang AB = m, erhalten wir aus Lemma 13.7, dass x eine Ecke der Lösungsmenge ist. Zum Beweis der zweiten Behauptung sei x ∈ E(Zstd ) mit I := {i | xi > 0 }. Nach Lemma 13.7 sind die Spaltenvektoren von AI linear unabhängig, so dass nach Voraussetzung |I| ≤ rang A = m ist. Im Fall |I| = m sei B := I, sonst ergänze I durch Hinzunahme der Indizes weiterer, linear unabhängiger Spaltenvektoren zu B mit Mächtigkeit m. Sei N = {1, 2, . . . , n} \ B. Wegen xB\I = 0 gilt: AB xB = AI xI + AB\I xB\I = Ax = b. Weil xB = A−1 B b ≥ 0, ist (B, N ) eine zulässige Basis-Nichtbasis-Partition. Es ist möglich, dass einer Ecke verschiedene, zulässige Basis-Nichtbasis-Partitionen zugeordnet werden können. In diesem Fall nennt man die Ecke und zugehörige BasisNichtbasis-Partitionen degeneriert: Def inition 13.11 (Degeneration). Eine zulässige Basis-Nichtbasis-Partition (B, N ) und die zugehörige Basislösung x := Φc (B, N ) heißen degeneriert (entartet), wenn xB Nulleinträge hat. Eine Ecke des Zulässigkeitsbereichs ist degeneriert, wenn sie auf mehr als n − m Seitenflächen {x ∈ Rn | xk = 0 }, nämlich k ∈ N und einer weiteren mit k ∈ B, liegt. Nach Satz 13.10 finden wir den optimalen Zielwert, indem wir zu jeder BasisNichtbasis-Partition testet, ob diese zulässig ist und das Minimum der zugehörigen Zielwerte ausgeben. Dieser Ansatz ist aber nur für kleine n und m durchführbar, denn n n m viele Basis-Nichtbasis-Partitionen. Beim Simplex-Algorithmus es gibt m ≥ m versucht man die Anzahl der betrachteten Basis-Nichtbasis-Partitionen zu reduzieren, indem nur Partitionen in Betracht gezogen werden, deren der Zielwert mindestens das bisher erreichte Niveau hat. 3. Simplex-Algorithmus 159 3. Simplex-Algorithmus Dantzig hatte im Rahmen der Forschung der US-Luftwaffe lineare Programme zur Planung der Logistik und Produktion im Kriegsfall formuliert und hoffte vergebens, dass man in der Wirtschaftmathematik mechanische Methoden zur linearen Programmierung kannte. Während des Sommers 1947 entwickelte er den Simplex-Algorithmus. Als erste, öffentliche Publikation gilt Dantzigs Text [Dantzig51]. Die Bezeichnung Simplex-Algorithmus“ geht auf Dantzigs ursprüngliche Voraussetzung zurück, dass ” die Lösungsmenge ein Simplex sei. Das Simplex-Verfahren funktioniert auch bei Degeneration, sofern bei der Pivot-Wahl sichergestellt ist, nicht in eine Endlosschleife zu geraten. Die grundlegende Idee der Simplex-Methode ist, beginnend von einer Ecke des Zulässigkeitsbereichs iterativ zu benachbarten Ecken zu gehen, bis eine optimale Ecke erreicht wird. In der Praxis bildet der Ursprung meist die Ausgangsecke, im anderen Fall können wir in einer ersten Phase mittels Simplex-Algorithmus eine Ecke der Lösungsmenge bestimmen. Nach Korollar 13.6 auf Seite 156 existiert eine Ausgangsecke, sofern die Restriktionen nicht widersprüchlich sind. Wir setzen zunächst voraus, dass eine zulässige Basis-Nichtbasis-Partition (B, N ) und zugehörige Basislösung (Ecke) bekannt sind, und untersuchen die folgenden Punkte: • Wie erhält man die Basis-Nichtbasis-Partition bzw. Basislösung einer benachbarten Ecke mit niedrigerem Zielwert und wie entscheidet man sich bei mehreren Alternativen? • Wie ist eine optimale Ecke zu erkennen? • Unter welchen Bedingungen terminiert dieses Verfahren? Zur Basis-Nichtbasis-Partition (B, N ) kann man das lineare Programm schreiben als: minimiere cT x, so dass AB xB + AN xN xB , xN =b ≥ 0. Nur die Variablen xN sind unabhängig, xB erhalten wir gemäß xB (xN ) := A−1 B (b − AN xN ) . (34) Die Objektfunktion lautet: cT x = cTB xB (xN ) + cTN xN T = cTB A−1 B (b − AN xN ) + cN xN T T −1 = cTB A−1 B b + cN − cB AB AN xN . | {z } | {z } =Φc (B,N ) :=sT N Wir haben die Zielfunktion relativ zu einer Basis-Nichtbasis-Partition (B, N ) umgeformt. Der Wert Φc (B, N ) ist der Zielwert an der Stelle Φ(B, N ). Def inition 13.12 (Relative Zielfunktion). Zu einer zulässigen Basis-Nichtbasis-Partition (B, N ) heißt die Funktion Φc (B, N ) + sT x mit sB := 0 und sTN := cTN − cTB A−1 B AN die relative Zielfunktion. 160 13. Lineare Programmierung Beachte, Φc (B, N ) hängt nur von der Basis-Nichtbasis-Partition (B, N ) und der zugehörigen Basislösung, jedoch nicht von der Variablen x ab. Die relative Zielfunktion gibt an, wie sich der Zielwert verhält, ändern wir den Wert von Nichtbasisvariablen. Angelehnt an die ökonomische Interpretation im Fall einer Minimierungsaufgabe heißen die Koeffizienten s Schattenpreise, die (informell formuliert) angeben, was es kostet, eine Nichtbasisvariable xj um eine Einheit zu erhöhen.2 Durch die Schattenpreise erhalten wir ein Optimalitätskriterium für die Basislösung: Satz 13.13 (Optimalitätskriterium). Die Basislösung bzw. die Ecke zur zulässigen Basis-Nichtbasis-Partition (B, N ) ist genau dann optimal, wenn für die relative Zielfunktion der Vektor sN ≥ 0 ist, d.h. alle Schattenpreise nicht-negativ sind. Beweis. Wegen cT x = Φc (B, N ) + sTN xN und der Forderung xN ≥ 0 für alle zulässigen Lösungen x ∈ Zstd können wir den Zielwert nur reduzieren, falls mindestens ein Eintrag in sN negativ ist. Sei xi eine Nichtbasisvariable, also i ∈ N , mit negativem Schattenpreis si . Wir wollen i in die Basis B aufnehmen und werden dafür einen Index j aus B entfernen. Die Variable xi der Basislösung zur Partition (B, N ) hat als Nichtbasisvariable den Wert 0. Um diese auf λ ≥ 0 zu setzen, muß man die Werte der Variablen xB gemäß Gleichung (34) ändern: −1 xB (xN (λ)) := A−1 B (b − λAei ) = AB (b − λAi ) . (35) Sei x(λ) die neue Lösung in Abhängigkeit in λ. Wegen (35) gilt: Ax(λ) = AB · xB (xN (λ)) + AN xN (λ) = AB A−1 B (b − λAi ) + λAi = b. Der Zielwert c(λ) ist cT x(λ) = Φc (B, N ) + sTN xN (λ) = Φc (B, N ) + si λ. Aufgrund si < 0 nimmt der Zielwert mit wachsendem λ ab. Wir wählen das maximale λ ≥ 0 mit x(λ) ∈ Zstd . Wegen xN (λ) ≥ 0 und Ax(λ) = b suchen wir das größte λ ≥ 0 mit xB (xN (λ)) ≥ 0. Zu λsup := sup {λ ∈ R≥0 | x(λ) ≥ 0 } unterscheide drei Situationen: • Im Fall λsup = +∞ können wir den Zielwert beliebig verkleinern, der Zielwert ist unbeschränkt und das Verfahren stoppt. • Im Fall 0 < λsup < +∞ existiert ein j, so dass xj (0) > 0 und xj (λsup ) = 0 ist, denn für x(0) = 0 muß λsup = 0 sein. Wir tauschen j ∈ B und i ∈ N für die neue Basis-Nichtbasis-Partition (B neu , N neu ) aus. Die neue Basislösung ist x(λsup ), der Zielwert sinkt auf c(λsup ). Zu zeigen bleibt, dass für die neue Basis-Nichtbasis-Partition die Matrix AB neu vollen Rang hat. Wir wollen zeigen, dass der Übergang von den Spaltenvektoren AB auf AB neu eine Basistransformation ist. Angenommen, der neue Vektor Ai sei eine Linearkombination der Spaltenvektoren AB\{j} , 2Diese Interpretation der Koeffizienten der relativen Zielfunktion stammt aus der klassischen Sensitivitätsanalyse. Im Fall von Degeneration muß diese Interpretation nicht korrekt sein. 3. Simplex-Algorithmus 161 d.h. es gäbe einen Koeffizientenvektor u mit uj = 0 und AB uB = Ai . Dann ist der Eintrag j des Vektors λsup A−1 B Ai = λsup uB gleich 0. Aus −1 xB (λsup ) = A−1 B b − λsup AB Ai | {z } | {z } | {z } j-tes Bit Null =xB (0) j-tes Bit Null folgt, dass xj (0) = 0 — Widerspruch zur Wahl von j. • Im Fall λsup = 0 ist die Ecke degeneriert: Es gibt einen Index k ∈ B, so dass der Eintrag k in xB = A−1 B b Null ist (also die Basisvariable xk den Wert 0 hat), die Komponente k in A−1 B Ai hingegen nicht. Wähle den Index j des Spaltenvektors aus der Menge {k ∈ B | xk = 0 } so, dass die Spaltenvektoren von A{i}∪B\{j} linear unabhängig sind. Mit der neuen Basis-NichtbasisPartition ist die gleiche Basislösung verbunden und insbesondere vermindern wir den Zielwert nicht. Falls der Zulässigkeitsbereich Zstd keine degenerierte Ecke hat, finden wir nach endlich vielen Iterationen eine optimale Ecke oder bemerken, dass das lineare Programm unbeschränkt ist. Bevor wir genauer auf die Wahl eingehen, welche Variable aus der Basis entfernt und welche hinzugenommen wird, zeigen wir, dass der zuvor beschriebene Übergang zu einer anderen Ecke des Zulässigkeitsbereichs anschaulich bedeutet, dass man sich entlang der Menge {x(λ) | 0 ≤ λ ≤ λsup } , einer Kante3 des Polyhedrons, bewegt und umgekehrt auch alle benachbarten Ecken betrachtet. Zwei Ecken p, p0 heißen benachbart, wenn [p, p0 ] eine Kante ist. Wir sagen, zwei zulässige Basis-Nichtbasis-Partitionen (B, N ) und (B 0 , N 0 ) sind benachbart, wenn |B \ B 0 | = 1, d.h. die beiden Partitionen sind durch Austausch einer Basis- gegen eine Nichtbasis-Variable ineinander überführbar. In Übungsaufgabe 17.1 zeigen wir: Satz 13.14. Für den Zulässigkeitsbereich Zstd gilt: a) Zwei Ecken p, p0 ∈ E(Zstd ), p 6= p0 , sind genau dann benachbart, d.h. [p, p0 ] ist eine Kante von Zstd , wenn zulässige, benachbarte Basis-Nichtbasis-Partitionen (B, N ), (B 0 , N 0 ) mit p = Φ(B, N ) und p0 = Φ(B 0 , N 0 ) existieren. b) Falls für zwei zulässige, benachbarte Basis-Nichtbasis-Partitionen (B, N ) und (B 0 , N 0 ) die Basislösungen Φ(B, N ) und Φ(B 0 , N 0 ) nicht benachbart sind, gilt Φ(B, N ) = Φ(B 0 , N 0 ) und die Ecke ist degeneriert. In jeder Iteration nehmen wir eine Variable xi in die Basis auf und eine Variable xj heraus. Die Entscheidung für ein Index-Paar (i, j) ∈ N × B heißt Pivot-Wahl. Für die von Wahl (i, j) gibt es sogenannte Pivot-Regeln, weil zumeist mehrere Alternativen existieren. Dantzig [Dantzig51] hat ursprünglich zwei Regeln vorgeschlagen: Nonbasic-Gradient-Methode: Wähle i ∈ N mit minimalem Schattenpreis si < 0. Best-Improvement-Regel: Wähle i ∈ N mit der maximal möglichen Abnahme des Zielwertes. 3[p, p0 ] ist eine Kante, wenn zu keinem Punkt x ∈ [p, p0 ] ein y 6= 0 mit (p−p0 ) ⊥ y und x±y ∈ Z std existiert. 162 13. Lineare Programmierung Diese Richtlinien stellen neben der formalen Anforderungen keine Bedingungen an die Wahl von j ∈ B, d.h. welche Variable aus der Basis genommen werden soll. Bei beiden Regeln besteht die Gefahr des Cyclings (Kreisens). Wir haben in Satz 13.14 gesehen, dass im Fall einer degenerierten Ecke mehrere Basis-Nichtbasis-Partitionen zur gleichen Basislösung existieren. Bei beiden Pivot-Regeln ist es möglich, dass wir nach einigen Iterationen wieder die Ausgangspartition erreichen, ohne die Ecke zu verlassen. Der interessierte Leser findet ein Beispiel bestehend aus 3 Gleichungen und sieben Variablen, bei dem man nach sechs Schritten wieder die Ausgangspartition erreicht, in [Dantzig66, V97]. Die heute geläufigste Pivot-Regel, die Cycling verhindert, geht auf Bland [Bland77] zurück: Blands Pivot-Regel: Nimm xi mit minimalem i ∈ {k ∈ N | sk < 0 } in die Basis auf und entferne xj mit minimalem j ∈ {k ∈ B | xk (λsup ) = 0 }. Für Blands Pivot-Regel ist gewährleistet, dass der Simplex-Algorithmus stets terminiert [V97, PS82]: Fakt 13.15. Mit Blands Pivot-Regel tritt kein Cycling auf. Beim Simplex-Algorithmus 1 auf Seite 163 setzen wir in Schritt 1 voraus, dass zu Beginn eine zulässige Basis-Nicht-Basispartition (B, N ) respektive eine zulässige Basislösung x bekannt ist. Falls das Programm in kanonischer Form, also minimiere cT x, so dass Ax ≤ b x ≥ 0, gegeben ist, führen wir Slack-Variablen r ein, so dass neben den Nichtnegativitätsbedingungen x, r ≥ 0 die Restriktionen x A Im =b r lauten. Die letzten m Spalten, die Einheitsvektoren, sind offenbar linear unabhängig. Für b ≥ 0, erhalten wir mit x = 0 und r = b eine zulässige Basislösung und entsprechend eine zulässige Basis-Nichtbasis-Partition. Falls bei der kanonischen Form b negative Einträge hat oder das lineare Programm in Standardform mit Ax = b vorliegt, ist eine zulässige Basislösung nicht immer offensichtlich. Wenngleich in der Praxis meist der Ursprung eine Ecke des Zulässigkeitsbereichs darstellt, ist die Bestimmung einer Ecke in Schritt 1 des Simplex-Algorithmus’ im allgemeinen nicht trivial. Man kann sogar zeigen, dass das Finden einer beliebigen Lösung zu einem linearen Ungleichungssystem äquivalent zur linearen Programmierung ist. Ein Ansatz ist der sogenannte Zwei-Phasen-Simplex-Algorithmus. Wir erweitern das Programm durch Einführen neuer Variablen t und minimieren die Summe der neuen Variablen: P minimiere m i=1 ti , so dass Ax + t = b x, t ≥ 0. Falls der optimale Zielwert ungleich 0 ist, gilt Ax 6= b für alle x ≥ 0 und das ursprüngliche lineare Programm hat keine zulässige Basislösung. Im anderen Fall ist t = 0 für jede optimale Lösung (x, t), also Ax = b. Wir setzen wegen t = 0 voraus, dass die Variablen t Nichtbasis-Variablen sind. Aus der Basis-Nichtbasis-Partition 3. Simplex-Algorithmus 163 Abbildung 1. Simplex-Algorithmus mit Blands Pivot-Regel Eingabe: Lineares Programm in Standardform (1) Wähle zulässige Basis-Nichtbasis-Partition (B, N ). (2) Berechne zur Basis-Nichtbasis-Partition aktuellen Zielwert Φc (B, N ) und Schattenpreise sN . (3) IF sN ≥ 0 THEN stoppe mit Ausgabe Φ(B, N ). (4) Wähle i := min {k ∈ N | sk < 0 }. (5) λsup := sup {λ ∈ R≥0 | x(λ) ≥ 0 } mit xB (λ) = A−1 B (b − λAi ). (6) Fallunterscheidung: • λsup = +∞: Stoppe, Zielwert ist unbeschränkt. • λsup < +∞: Setze j := min {k ∈ B | xk (λsup ) = 0 }. (7) B := {i} ∪ B \ {j}, N := {1, 2, . . . , n} \ B (8) GOTO 2 (B, N ) erhält man eine zulässige Basislösung für das ursprüngliche Programm durch Entfernen der Indizes für t aus N . Haben wir im ersten Schritt eine zulässige Basislösung bzw. Basis-Nichtbasis-Partition mit dem Simplex-Algorithmus bestimmt oder das Programm als widersprüchlich erkannt, ist nun das eigentliche Programm mit dem Simplex-Verfahren 1 zu lösen. Man nennt dieses zweistufige Verfahren ZweiPhasen-Simplex-Algorithmus, da das Programm in zwei getrennten Phasen gelöst wird. Ein Nachteil der Zwei-Phasen-Methode ist, dass beide Stufen separat arbeiten, insbesondere wählen wir die in der ersten Phase gefundene Basis-Nichtbasis-Partition unabhängig von der Zielfunktion cT x. Eine Möglichkeit, beide Phasen zu kombinieren, bildet die Big-M-Methode. Zu einem Programm in Standardform führe m zusätzliche Variablen t ein und löse x Pm T minimiere c x + M i=1 ti , so dass A Im =b t x, t ≥ 0 mit einer hinreichend großen Konstanten M . Mit der Konstanten M erreichen wir, dass für alle optimalen Lösungen (x, t) gilt t = 0 und x eine optimale Lösung des ursprünglichen Programms ist. n Es gibt maximal m zulässige Basis-Nichtbasis-Partitionen, die Anzahl der Iterationen von Algorithmus 1 ist durch 2n beschränkt. Berechnen der Inversen A−1 B , Lösen des linearen Gleichungssystems AB xB = b sowie die übrigen Aufgaben in jeder Iteration gelingen jeweils in O(n3 ) Schritten. Satz 13.16. Zu einem linearen Programm in n Variablen mit m ≤ n Restriktionen liefert der Simplex-Algorithmus 1 in O(n3 2n ) Schritten entweder eine optimale Ecke oder erkennt, dass das Programm widersprüchlich bzw. unbeschränkt ist. 164 13. Lineare Programmierung Der Satz 13.16 liefert nur eine exponentielle Laufzeitschranke für den SimplexAlgorithmus. Für die Analyse haben wir die Anzahl der betrachteten Basis-NichtbasisPartitionen durch die Anzahl aller möglichen Partitionen nach oben beschränkt. Klee und Minty [KM72, S86] haben 1972 ein lineares Programm in 2n Variablen und n Restriktionen angeben, für das die Simplex-Methode mit Dantzigs NonbasicGradient-Pivotregel 2n −1 Iterationen benötigt. Dieses negative Resultat wurde in den Folgejahren auf die anderen, bekannten Pivotregeln übertragen, Avis und Chvátal [AC78] zeigten die exponentielle Schranke für Blands Pivotregel. Wenngleich der ursprüngliche Simplex-Algorithmus kein Polynomialzeit-Verfahren darstellt, ist es bis heute ein offenes Problem, ob eine (deterministische oder randomisierte) Pivotregel existiert, für welche die Anzahl der Iterationen polynomiell ist, d.h. man beweisen kann, dass der Simplex-Algorithmus jedes lineare Programm effizient löst. Diese Worst-Case-Laufzeit steht im Widerspruch zur Praxis. In Dantzigs Buch [Dantzig66] schreibt der Erfinder der Simplex-Methode, dass in den zahlreichen Beispielen aus der Praxis die Anzahl der Iterationen für ein lineares Programm in kanonischer Form mit m Restriktionen und n Variablen im Bereich von 2m bis 3m liegt. Mit Khachiyans Ellipsoid-Methode [Kh79] kennt man zwar bereits seit 1979 einen Polynomialzeit-Algorithmus4 für die lineare Programmierung, allerdings ist das Verfahren nicht praktikabel. Basierend auf einer Arbeit von Karmakar [Ka84] wurden Ende der Achtziger Jahren Interior-Point-Methoden entwickelt [V97]. Diese lösen lineare Programme in Polynomialzeit und sind für große Programme mit mehr als 1000 Variablen eine Alternative zum Simplex-Algorithmus. Für die Variante des Simplex-Algorithmus’ mit der sogenannten SchatteneckenPivotregel von Borgwardt (1988) ist die Laufzeit für zufällige (nach einer bestimmten Verteilung) verteilte A, b, c im Durchschnitt durch ein Polynom in der Variablenanzahl n und der Anzahl Restriktionen m beschränkt. Es ist jedoch ein offenes Problem, ob für die lineare Programmierung ein starker Polynomialzeit-Algorithmus, d.h. die Laufzeit ist durch ein Polynom in n und m beschränkt und hängt insbesondere nicht von der Eingabelänge ab, existiert. Es ist ebenso ungeklärt, ob die Distanz zwischen zwei Ecken e1 , e2 der Lösungsmenge (d.h. die Anzahl der Kanten auf dem Kantenzug von e1 nach e2 ) durch ein Polynom in n und m beschränkt ist, also eine Pivotregel existieren kann, für die das Simplex-Verfahren ein starker PolynomialzeitAlgorithmus ist. 4. Simplex-Tableau Für die Rechnung per Hand ist die Simplex-Methode in Form von Algorithmus 1 (Seite 163) ungeeignet: In jeder Iteration lösen wir ein lineares Gleichungssystems bzw. bestimmen eine inverse Matrix und gehen die Halbgerade x(λ) bis zu einer Ecke entlang, um die Indizes für den Basiswechsel zu ermitteln. Zum Lösen eines linearen Programms per Hand haben sich Simplex-Tableaus etabliert, die eine alternative Darstellung des Simplex-Algorithmus’ liefern. Für die Simplex-Tableaus führe eine neue Variable −z und als weitere Restriktion cT x − z = 0 ein. Das Ziel ist, den Wert von −z zu maximieren. Fixiere −z als Basisvariable, d.h. beachte diese Variable bei 4Die Laufzeit ist durch ein Polynom in der Bitlänge der ganzzahligen Eingabe A, b, c beschränkt. 4. Simplex-Tableau 165 der Pivot-Auswahl nicht. Das Tableau hat folgenden Aufbau: −z x 0 A b 1 cT 0 Sei (B, N ) eine zulässige Basis-Nichtbasis-Partition. Um die Basislösung unmittelbar aus dem Simplex-Tableau abzulesen, überführen wir durch elementare Zeilenoperationen das Gleichungssystem Ax = b in ein äquivalentes System A0 x = b0 mit A0B = Im , so dass für die Basislösung x := Φ(B, N ) gilt xB = b0 und xN = 0. Das Tableau hat schematisch folgenden Aufbau: −z xN xB 0 A0N Im b0 1 cTN cTB 0 In der letzten Zeile soll die relative Zielfunktion steht. Durch elementare Zeilenoperationen löschen wir die Einträge der Basisvariablen in der letzten Zeile, d.h. wir subtrahieren die i-te Zeile ci -mal von der letzten Zeile. Wegen xB = b0 ist der Eintrag in Feld rechts unten −cTB xB = −Φc (B, N ). Die xB -Einträge der letzten Zeile sind Null und, da A0B = Im , entsprechen die xN -Einträge den Schattenpreisen cTN − cTB A0N = sN bezüglich der Basis-Nichtbasis-Partition (B, N ), so dass das Simplex-Tableau zur Basis-Nichtbasis-Partition (B, N ) schematisch wie folgt aussieht: −z xN xB 0 A0N Im 1 sTN b0 sTB = 0 −Φc (B, N ) Zusammenfassend: Wir erhalten die Basislösung und die relative Zielfunktion (die Schattenpreise) zu einer gegebenen Basis-Nichtbasis-Partition (B, N ), indem man mittels elementarer Zeilenoperationen in den Spalten zu xB die Einheitsvektoren e1 , . . . , em erzeugt. Der negierte Zielwert steht rechts unten. Unser Ziel ist es, den Wert im Feld rechts unten zu maximieren. Zu klären ist, wie man die Pivotwahl (i, j) ∈ N ×B nach Blands Regel im SimplexTableau vornimmt. Die Wahl i ∈ N , d.h. welche Variable xi in die Basis genommen wird, treffen wir anhand der Schattenpreise in der letzten Zeile: Wähle das minimale i ∈ N mit si < 0. Um j ∈ B zu bestimmen, betrachte zum Skalar λ ≥ 0 den Ausdruck xB (λ) = (A0B )−1 b0 − λA0 ei = b0 − λA0i aus Definition 35 auf Seite 160, berechne λsup := sup {λ ∈ R≥0 | x(λ) ≥ 0 } und wähle j := min {k ∈ B | xk (λsup ) = 0 } . 166 13. Lineare Programmierung Für λsup bestimmen wir λsup (k) := sup {µ ∈ R≥0 | b0k − µ · A0ik ≥ 0 } für 1 ≤ k ≤ m, also ( b0 k falls A0ik 6= 0 0 λsup (k) := Aik +∞ sonst. und setzen λsup gleich dem Minimum aller λsup (k) ≥ 0. Bezogen auf das Tableau besagt Blands Pivotregel: (1) Wähle die erste Spalte i mit dem kleinsten, negativen Schattenpreis (Pivotspalte). (2) Wähle die oberste Zeile j mit λsup (j) = λsup (Pivotzeile). Um λsup zu ermitteln, dividiere in jeder Zeile k die rechte Seite b0k durch den Koeffizienten A0ik in der Pivotspalte, sofern dieser ungleich Null ist, und bestimmte den kleinsten, nicht-negativen Quotienten. (3) Erzeuge durch elementare Zeilenoperationen in der Pivotspalte i den kanonischen Einheitsvektor ej . Abbildung 2. Zulässigkeitsbereich des Beispiel-Programms x2 III 6 5 4 3 2 1 0 p p p pp ppp ppp pppp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppp p p p p p p p p p p pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp p ppp ppp pppp pppp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp pp p p p p p p pp pp pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp p II ppp pppp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp I - x1 1 2 3 4 5 Wir demonstrieren Simplex-Tableaus und das Rechnen mit ihnen anhand eines einfachen Beispieles. Minimiere −x1 − x2 unter den Restriktionen x1 , x2 ≥ 0 und 2x1 ≤ 10 −3x1 + 6x2 ≤ 18 2x1 + x2 ≤ 13. Abbildung 2 zeigt den Zulässigkeitsbereich im R2 . In Matrixschreibweise und mit Slackvariablen lauten die Restriktionen: x1 x2 10 2 0 1 0 0 −3 6 0 1 0 · x3 = 18 . x4 13 2 1 0 0 1 x5 4. Simplex-Tableau 167 Ergänze drei Slackvariablen x3 , x4 , x5 , die aktuellen Basisvariablen werden durch Fettdruck gekennzeichnet (In leeren Feldern steht jeweils eine Null): −z 1 x1 x2 x3 x4 x5 2 1 10 −3 6 1 18 2 1 1 13 −1 −1 0 Aus dem Tableau erhalten wir als Basislösung x = (0, 0, 10, 18, 13) mit Zielwert 0 und Schattenpreisen (−1, −1, 0, 0, 0). In Abbildung 2 entspricht dies dem Nullpunkt. Blands Regel folgend wähle x1 als neu in die Basis zu nehmende Variable, denn der minimale Schattenpreis ist s1 = s2 = −1 und wir entscheiden uns für den kleinsten Index i ∈ {1, 2}. Wegen λsup (1) = 10 2 =5 λsup (2) = 18 −3 = −6 λsup (3) = 13 2 = 6, 5 ist λsup = λsup (1) und wir nehmen x3 aus der Basis, da in der ersten Zeile die Basiseins von x3 steht. −z s 1 x1 x2 x3 x4 x5 2 1 10 −3 6 1 18 2 1 1 13 −1 −1 0 • λsup (k) 10/2 = 5 • 18/ − 3 = −6 13/2 = 6, 5 Multipliziere die erste Zeile mit 12 und addiere Vielfache zu den übrigen Zeilen, damit in der x1 -Spalte der erste Einheitsvektor e1 steht: −z x1 1 1 x2 x3 x4 x5 0, 5 5 6 1, 5 1 33 1 −1 1 3 −1 0, 5 5 Aus dem Tableau erhalten wir als Basislösung x = (5, 0, 0, 33, 3) mit Zielwert −5 und Schattenpreisen (0, −1, 12 , 0, 0). In Abbildung 2 entspricht dies dem Punkt I. Im nächsten Schritt nimm x2 in die Basis auf. Wegen λsup (1) = +∞ λsup (2) = 33 6 = 5, 5 ist λsup = λsup (3) und wir entfernen x5 aus der Basis: −z x1 x2 1 1 1 x3 x4 x5 0, 5 5 7, 5 1 −6 15 −1 1 3 −0, 5 1 8 λsup (3) = 3 1 =3 168 13. Lineare Programmierung Aus dem Tableau erhalten wir als Basislösung x = (5, 3, 0, 15, 0) mit Zielwert −8 und Schattenpreisen (0, 0, − 12 , 0, −1). In Abbildung 2 entspricht dies dem Punkt II. Im letzten Schritt nimm x3 in die Basis auf. Wegen λsup (1) = 5 0,5 = 10 λsup (2) = 15 7,5 =2 λsup (3) = 3 −1 = −3 ist λsup = λsup (2) und wir entfernen x4 aus der Basis: −z x1 x2 x3 x4 x5 1 −0, 06 0, 4 1 0, 13 −0, 8 1 0, 13 0, 2 1 0, 06 0, 6 4 2 5 9 Die erreichte Lösung ist optimal, da alle Schattenpreise der Nichtbasisvariablen positiv sind. Der optimale Wert ist x = (4, 5, 2, 0, 0) bzw. Punkt III in Abbildung 2. Der optimale Zielwert ist −9. Es exisitiert ebenfalls eine Kurzform der Simplex-Tableaus, wie sie zum Beispiel in [Fischer92] verwendet wird. Die Koeffizientenvektoren der geordneten Basisvariablen haben stets die Form einer Einheitsmatrix und die zugehörigen Schattenpreise sind Null, so dass die Angaben im Simplex-Tableau redundant sind. In der Kurzform schreibt man die Basisvariablen links und läßt die zugehörigen Spalten weg, der Wert rechts ist der Wert der Basisvariablen. Das Ausgangstableau des zuvor behandelten Programms lautet in dieser Form: x1 x2 x3 2 10 x4 −3 6 18 x5 2 1 13 −z 1 1 0 Aus den Regeln für das Rechnen im erweitertern Simplex-Tableau lassen sich die Regeln für die Kurzform herleiten. Diese sind aber komplizierter und anfälliger für Rechenfehler gegenüber des erweiterten Tableaus. Zum Abschluß wollen wir noch die Fälle von Degeneration und Mehrdeutigkeit im allgemeinen Simplex-Tableau betrachten. Eine Basislösung bzw. die zugehörige Basis-Nichtbasis-Partition ist degeneriert, wenn ein i ∈ B mit xi = 0 existiert, also eine Basisvariable xi = 0 ist. Da die Werte der Basisvariablen in der Spalte rechts stehen, bedeutet eine Null in diesen Feldern, dass die aktuelle Basislösung degeneriert ist. Zum Beispiel beschreibt das folgende Tableau eine degenerierte Ecke, denn die Basisvariable x2 ist gleich 0: −z x1 x2 x3 x4 x5 1 9 3 2 8 1 1 7 1 1 3 1 4 2 0 6 Im Fall von Mehrdeutigkeit gibt es mindestens zwei optimale Ecken. Wenn wir eine optimale Lösung gefunden haben, sind alle Schattenpreise der relativen Zielfunktion 5. Dualität 169 größer oder gleich 0. Um zu einer Ecke mit gleichem Zielwert zu gelangen, kommen nur Nichtbasis-Variablen mit Schattenpreis Null in Frage, denn in diesem Fall addieren wir kein Vielfaches zur relativen Zielfunktion, um den entsprechenden Eintrag zu löschen. Zum Beispiel beschreibt das folgende Tableau eine optimale Ecke im Fall von Mehrdeutigkeit: −z x1 x2 x3 x4 x5 1 2 8 1 3 1 1 3 9 −1 3 0 4 2 8 6 Wir ersetzen die Basisvariable x5 durch x3 , das neue Simplex-Tableau hat folgende Form: −z x1 x2 x3 x4 x5 1 2 −2 0 1 3 1 2 1 0 −3 2 1 0 3 6 Diese ebenfalls optimale Ecke ist wegen x1 = 0 ferner degeneriert. Man erkennt Mehrdeutigkeit im Simplex-Tableau, wenn für eine optimale Lösung (d.h. kein Schattenpreis ist negativ) der Schattenpreis einer Nichtbasis-Variablen auch verschwindet und diese Variable in der Basis aufgenommen werden kann. 5. Dualität In einer Unterhaltung mit Dantzig hatte John von Neumann 1947 die grundlegenden Begriffe der Dualität in der linearen Programmierung eingeführt. Er ordnete einem linearen Programm (primales Programm) LP minimiere cT x, so dass Ax ≥ b x ≥ 0, ein duales Programm zu, wobei beide optimalen Werte übereinstimmen, sofern das primale Programm weder unbeschränkt noch widersprüchlich ist. Def inition 13.17 (Duales Programm). Das duale lineare Programm zu einem linearen Programm in kanonische Form lautet: LP* maximiere bT y, so dass AT y ≤ c y ≥ 0. Während das primale Programm eine Mimimierungsaufgabe ist, soll beim dualen Programm die Zielfunktion maximiert werden. Offenbar ist das duale Programm des dualen Programms das primale Ausgangsprogramm. Wir bezeichnen mit Z und Z ∗ die Zulässigkeitsbereiche des primalen und des dualen Programms in kanonischer Form. Unser Ziel ist zu zeigen, dass der Zielwert von primalen und dualem Programm (sofert ein Programm beschränkt und das Restriktionssystem nicht widersprüchlich ist) übereinstimmen. 170 13. Lineare Programmierung Lemma 13.18 (Schwache Dualität). Für x ∈ Z und y ∈ Z ∗ gilt bT y ≤ cT x. Beweis. Wegen Ax ≥ b und y ≥ 0 gilt bT y ≤ (Ax)T y = xT AT y. In Verbindung mit AT y ≤ c und y ≥ 0 erhalten wir bT y ≤ xT (AT y) ≤ xT c und mit xT c = cT x folgt die Behauptung. Sofern die Zulässigkeitsbereiche leer sind, liefert jede duale Lösung y ∈ Z ∗ eine T nicht untere Schanke für min c x x∈ Z und jede primale Lösung x ∈ Z eine obere Schranke für max bT y y ∈ Z ∗ . Aus der schwachen Dualität folgt für das primale und zugehöriges duales Programm: • Falls eines der Programme unbeschränkt ist, sind die Restriktionen des anderen Programms widersprüchlich. • Im Fall eines widersprüchlichen Programms ist das andere entweder ebenfalls widerspüchlich oder der Zielwert ist unbeschänkt (Es gibt Beispiele für beide Fälle). Aus der schwachen Dualität erhalten wir ein Optimalitätskriterium: Eine primale Lösung x ∈ Z ist optimal, wenn eine duale Lösung y ∈ Z ∗ mit bT y = cT x existiert. Die Umkehrung dieser Aussage ist die sogenannte starke Dualität: Satz 13.19 (Dualität). Falls die Restriktionssysteme des primalen Programms LP in kanonischer Form und des zugehörigen dualen Programm LP* nicht widerspüchlich sind, stimmen beide, optimalen Zielwerte überein. Beweis. Wegen der schwachen Dualität, Lemma 13.18, genügt zu zeigen, dass x ∈ Z und y ∈ Z ∗ mit cT x ≤ bT y existieren. Aus der Variante von Farkas’ Lemma in Korollar 12.43 auf Seite 149 folgt, dass für beliebiges c0 ∈ R die nachstehenden Aussagen äquivalent sind:5 a) Es existiert ein x ≥ 0 und Ax ≥ b mit cT x ≤ c0 . −A −b b) Es existiert ein x ≥ 0 mit x≤ . T c c0 −A y T λ c) Für alle ≥ 0 mit y ≥ 0 gilt −bT λ cT c0 y · ≥ 0. λ d) Für alle y ≥ 0 und λ ≥ 0 mit AT y ≤ λc gilt λc0 ≥ bT y. e) Für alle y ≥ 0 mit AT y ≤ c gilt c0 ≥ bT y. Angenommen, für alle y ∈ Z ∗ gilt bT y ≤ c0 < min cT x x ∈ Z für ein geeignetes c0 . Dann existiert eine primale Lösung x ∈ Z mit cT x ≤ c0 im Widerspruch zur Wahl von c0 kleiner als der optimale, primale Zielwert. 5Für den Beweis der Implikation d)⇒e)“ wähle λ = 1. Für die Rückrichtung e)⇒d)“ unter- ” ” scheide die beiden Fälle λ > 0 und λ = 0. Für λ > 0 folgert man Aussage d) aus e) mit y := λ−1 y. Um die Behauptung, für alle y ≥ 0 mit AT y ≤ 0 gilt bT y ≤ 0, zu folgern, wähle x0 ∈ Z (existiert nach Voraussetzung): Wegen Ax0 ≥ b, AT y ≤ 0 und x0 , y ≥ 0 gilt dann bT y ≤ xT0 AT y ≤ 0. 5. Dualität 171 Obwohl von Neumann diesen Satz bereits 1947 formulierte und bewies, ist er erst 1951 explizit in einer Arbeit von Tucker, Kuhn und Gale erschienen. Auch einem linearen Programm in Standardform, LPstd minimiere cT x, so dass Ax = b x ≥0 ordnet man ein duales Programm zu (beachte, y sind freie Variablen): maximiere bT y, LP* std so dass AT y + s = c s ≥ 0. ∗ Für die Standardform gilt auch die schwache Dualität, d.h. für x ∈ Zstd und y ∈ Zstd ist bT y ≤ cT x, denn bT y = (Ax)T y = xT (AT y) ≤ xT c. Der Dualitätssatz, die Gleichheit der optimalen Zielwerte, überträgt sich ebenfalls (siehe Übungsaufgabe 16.3): Korollar 13.20 (Dualität). Hat das primale Programm LPstd in Standardform eine optimale Lösung, so auch das duale Programm LP* std und beide Zielwerte stimmen überein. Zum Abschluß geben wir eine Motivation des dualen Programms basierend auf den Simplex-Tableaus. Zum linearen Programm in Standardform LPstd minimiere cT x, so dass Ax = b x ≥0 wird eine weitere Variable −z und eine zusätzliche Restriktion −z + cT x = 0 hinzugefügt, das neues Ziel ist die Minimierung von z. Bezogen auf das Tableau −z x 0 A b 1 cT 0 subtrahiert man Vielfache der oberen Zeilen von der Zielzeile, um den Wert im Feld rechts unten zu maximieren. Bezeichne y die Vielfachen, so steht in der letzten Zeile der Vektor der Schattenpreise s := c − AT y. Wir haben eine optimale Lösung x gefunden, dann und nur dann, wenn die Schattenpreise s ≥ 0 sind. Aufgrund6 xT s = xTB sB + xTN sN = 0 |{z} |{z} =0 =0 und Ax = b gilt: 0 = xT s = xT c − xT AT y = cT x − bT y. (36) 6Wegen x, s ≥ 0 muß für alle i entweder x oder s Null sein. Man nennt dies komplementäre i i Slackness. 172 13. Lineare Programmierung Die Minimierung von cT x ist daher gleichwertig zur Maximierung von bT y. Beim Rechnen im Simplex-Tableau haben wir durch die Multiplizierer y und die Schattenpreise s eine Lösung des dualen linearen Programms ermittelt: LP* std maximiere bT y, so dass AT y + s = c s ≥ 0. Gleichung (36) liefert die starke Dualität: Die optimalen Zielwerte des primalen und des dualen Programms stimmen, sofern einer endlich ist, überein. Kombiniert man primales und duales Programm, ergibt sich ein System linearer Ungleichungen: Ax = b AT y + s = c cT x − bT y = 0 (37) x, s ≥ 0 Das Finden einer Lösung (x, y, s) ist gleichwertig zur linearen Programmierung, denn x stellt in diesem Fall wegen der starken Dualität eine optimale Lösung des primalen Ausgangsprogramms dar. Faßt man (37) als Restriktionen für ein lineares Programm auf, so ist bereits das Finden einer Startecke für den Simplex-Algorithmus äquiva” lent“ zum linearen Programmieren. Kapitel 14 Reelle und komplexe Vektorräume In diesem Abschnitt untersuchen wir Linear-, Bilinear- und quadratische Formen. Der duale Vektorraum wird eingeführt und wir gehen ausführlich auf Skalarprodukte im Rn und im Cn ein. Wir betrachten symmetrische, orthogonale (hermitesche,unitäre) Matrizen und die zugehörigen Endomorphismen. 1. Dualität linearer Räume Zu einem K-Vektorraum V haben wir in Kapitel 6 auf Seite 63 die Bezeichnung Lin(V, K) := {` : V → K | ` ist Homomorphismus } für die Menge der linearen Abbildungen ` : V → K eingeführt. Nach Satz 6.2 ist Lin(V, K) mit Addition und skalarer Multiplikation (`1 + `2 )(v) := `1 (v) + `2 (v) (λ · `)(v) := λ · `(v) für `1 , `2 , ` ∈ Lin(V, K) und λ ∈ K ein K-Vektorraum. Sei b1 , . . . , bn eine Basis von V . Gibt es eine zugehörige Basis von Lin(V, K)? Definiere lineare Abbildungen `1 , . . . , `n ∈ Lin(V, K) gemäß ( 1 falls i = j `i (bj ) = δi,j = 0 sonst. Solche linearen Abbildungen existieren und sind eindeutig bestimmt, denn die Bilder der Basisvektoren charakterisieren eine lineare Abbildung eindeutig. Satz 14.1. Sei V ein endlich-dimensionaler K-Vektorraum mit Basis b1 , . . . , bn ∈ V . Dann bilden `1 , . . . , `n ∈ Lin(V, K) mit `i (bj ) = δi,j eine Basis von Lin(V, K). Insbesondere ist dim V = dim Lin(V, K). 173 174 14. Reelle und komplexe Vektorräume Beweis. Die Abbildungen `1 , . . . , `n ∈ Lin(V, K) sind linear unabhängig, denn aus Pn λ ` i=1 i i ≡ 0 (Nullabbildung) folgt 0= n X λi `i (bj ) = λj `j (bj ) = λj i=1 für alle j = 1, . . . , n. Zu zeigen bleibt, dass die Abbildungen `1 , . . . , `n ∈ Lin(V, K) den Raum Lin(V, K) erzeugen. Zu ` ∈ Lin(V, K) definiere λi := `(bi ) und 0 ` := n X λi · `i ∈ span(`1 , . . . , `n ). i=1 Die Bilder der Basisvektoren b1 , . . . , bn der beiden Funktionen ` und `0 stimmen überein `(bi ) = λi = `0 (bi ), so dass ` = `0 ist. Die linearen Abbildungen `1 , . . . , `n ∈ Lin(V, K) erzeugen folglich Lin(V, K). In Satz 14.1 verwenden wir implizit dim V < ∞, weil nur endliche Summen allgemein erklärt sind. Def inition 14.2 (Dualer Vektorraum, duale Basis). Sei V ein K-Vektorraum mit Basis b1 , . . . , bn ∈ V . Dann heißt L∗ := Lin(V, K) der duale Vektorraum (Dualraum) zu V und `1 , . . . , `n ∈ Lin(V, K) mit `i (bj ) = δi,j ist die duale Basis zu b1 , . . . , bn ∈ V . Bei der Definition der dualen Basis ist die Rolle von `i und bi symmetrisch. Jeder Vektor b ∈ V operiert als lineare Abbildung auf Lin(V, K) gemäß b: Lin(V, K) → K ` 7→ `(b). Es gilt: Korollar 14.3. Sei V ein endlich-dimensionaler K-Vektorraum. Dann gilt: (V ∗ )∗ = V. Betrachten wir den Fall V = Kn . Es gilt Lin(Kn , K) ∼ = Kn , die lineare Abbildung n ` ∈ Lin(K , K) läßt sich schreiben als `(x1 , . . . , xn ) = n X ai xi i=1 mit den Koeffizienten ai := `(ei ) für die kanonischen Einheitsvektoren e1 , . . . , en . Man nennt das formale Polynome `= n X ai Xi ∈ K[X1 , . . . , Xn ] i=1 eine Linearform in den Variablen X1 , . . . , Xn . 1. Dualität linearer Räume 175 Def inition 14.4 (Annulator, Nullstellenmenge). Sei V ein endlich-dimensionaler K-Vektorraum. Zu M ⊆ V heißt M 0 := {` ∈ V ∗ | `(m) = 0 für alle m ∈ M } Annulator von M . Zu L ⊆ V ∗ nennt man L0 := {v ∈ V | `(v) = 0 für alle ` ∈ L } die Nullstellenmenge von L. Eine Teilmenge I ⊆ K[X1 , . . . , Xn ] heißt Polynomideal, wenn (I, +) eine abelsche Gruppe ist und I · K[X1 , . . . , Xn ] ⊆ I.1 Zu M ⊆ Kn ist der Annulator M 0 = {p ∈ K[X1 , . . . , Xn ] | p(x) = 0 für alle x ∈ M } ein Polynomideal. Zum Ideal I ⊆ K[X1 , . . . , Xn ] ist die Nullstellenmenge I 0 ⊆ Kn eine Manigfaltigkeit mit (I 0 )0 ⊇ I. (I 0 )0 ist ein Radikalideal, es enthält zu f auch jedes Polynom g mit g q = f für q ∈ N. Für Radikalideale I gilt (I 0 )0 = I. Satz 14.5. Sei V ein endlich-dimensionaler K-Vektorraum und U ⊆ V ein Untervektorraum. Dann ist der Annulator U 0 ⊆ V ∗ von U ein Untervektorraum von V ∗ , so dass gilt dim U + dim U 0 = dim V und (U 0 )0 = U . Beweis. Sei b1 , . . . , bm eine Basis von U und b1 , . . . , bm , . . . , bn eine Basis von V . Sei `1 , . . . , `n ∈ V ∗ die duale Basis zu b1 , . . . , bn . Dann gilt: U 0 ⊆ span(`m+1 , `m+2 , . . . , `n ). Somit ist dim U + dim U 0 = m + (n − m) = n = dim V. Offenbar gilt (U 0 )0 = span(b1 , . . . , bm ) = U . Zum Abschluß wollen den dualen Vektorrraum mit dem dualen Code aus Kapitel 7 vergleichen und Gemeinsamkeiten aufzeigen. Zu einem Körper K ist ein linearer Code ein Untervektorraum C des Vektorraums Kn . Der zu C dualen Code ist nach Definition 7.19 auf Seite 78 erklärt als C ⊥ := u ∈ Kn cT u = 0 für alle c ∈ C Es gilt C 0 ∼ = C ⊥ , dim C + dim C ⊥ = dim V und (C ⊥ )⊥ = C. Der Annulator C 0 und der duale Code C ⊥ sind in verschiedene Räume, nämlich Kn und Lin(Kn , K) eingebettet. 1D.h. mit f ∈ I und g ∈ K[X , . . . , X ] liegt auch das Produkt f g im Ideal I. 1 n 176 14. Reelle und komplexe Vektorräume 2. Bilineare, Sesquilineare und quadratische Formen Sei K ein Körper und V ein K-Vektorraum. Eine Abbildung s : V × V → K nennen wir Bilinearform, wenn sie in jeder Komponente linear ist: Def inition 14.6 (Bilinearform). Sei V ein K-Vektorraum. Eine Abbildung s : V × V → K heißt bilinear (Bilinearform) auf V , wenn für alle u, v, w ∈ V und λ ∈ K gilt: (B1) s(u + v, w) = s(u, w) + s(v, w) und s(λv, w) = λs(v, w). (B2) s(u, v + w) = s(u, v) + s(u, w) und s(v, λw) = λs(v, w). Eine Bilinearform s : V × V → K heißt symmetrisch, wenn s(v, w) = s(w, v) für alle v, w ∈ V . Das kanononische Skalarprodukt h·, ·i : Rn × Rn → R mit hv, wi = v T w induziert eine symmetrische Bilinearform auf Rn . Welche Bilinearformen stellen ihrerseits Skalarprodukte dar? Def inition 14.7 (Positiv definite Bilinearform). Eine Bilinearform s : V × V → R eines R-Vektorraums V heißt positiv definit, wenn für alle v ∈ V gilt: a) s(v, v) ≥ 0. b) s(v, v) = 0 gdw. v = 0. Aus der Definition auf Seite 176 folgt unmittelbar: Satz 14.8. Sei V ein R-Vektorraum und s : V × V → R eine Bilinearform. Genau dann ist s symmetrisch und positiv definit, wenn s ein Skalarprodukt ist. Betrachten wir ein weiteres Beispiel eines Skalarprodukts. Sei I := [a, b] ⊆ R ein Intervall und V := C(I, R) der R-Vektorraum der stetigen Funktionen f : I → R. Die Abbildung V × V → R mit Z b (f, g) 7→ f (t)g(t)dt a ist eine symmetrische, positiv definite Billinearform, also ein Skalarprodukt auf dem Vektorraum C(I, R). Sei B = {b1 , . . . , bn } ⊂ V eine geordnete Basis des K-Vektorraums V . Zum Vektor Bt = n X ti b i ∈ V i=1 nennen wir t ∈ Kn den Koordinatenvektor von Bt. Eine Bilinearform s : V × V → K wird zur Basis B durch die Matrix MB (s) := s(bi , bj ) 1≤i,j≤n ∈ Mn,n (K) dargestellt. Es gilt: s(Bt, Bt0 ) = tT · MB (s) · t0 . (38) 2. Bilineare, Sesquilineare und quadratische Formen 177 Man kann sich leicht überlegen, dass zu zwei Bilinearformen s, s0 ihre Summe s + s0 mit (s + s0 )(v, w) = s(v, w) + s0 (v, w) ebenfalls eine Bilinearform ist, ebenso skalare Vielfache. Die Menge der Bilinearformen eines K-Vektorraums ist folglich ein KVektorraum. Da jede n × n-Matrix über K eine Bilinearform definiert und umgekehrt, gilt: Korollar 14.9. Sei V ein K-Vektorraum der Dimension n := dim V . Dann ist der K-Vektorraum der Bilinearformen auf V isomorph zu Kn×n . Seien A und B Basen eines K-Vektorraums V . Dann existiert eine invertierbare Matrix2 T ∈ GLn (K) für den Basiswechsel von B zu A, also A = BT . Der Kordinatenvektor zu b = At bezüglich der Basis B ist gegeben durch T t, denn b = At = (BT )t = B(T t). Für die darstellende Matrix einer Bilinearform gilt folgende Transformationsformel beim Basiswechsel: Korollar 14.10. Seien A und B Basen eines K-Vektorraums mit A = BT . Dann gilt für die darstellende Matrix einer Bilinearform s : V × V → K: MB (s) = T T · MA (s) · T. Beweis. Nach Gleichung (38) gilt: s(Bt, Bt0 ) = tT · MB (s) · t0 = (T t)T · MA (s) · (T t0 ) = tT · T T · MA (s) · T · T t0 . Es folgt MB (s) = T T · MA (s) · T . Zum Vergleich: Für einen Endomorphismus f : V → V lautet die Transformationsformel aus Gleichung (15) auf Seite 68: MB (f ) = T −1 · MA (f ) · T. Aus Korollar 14.10 folgt, dass wie bei Endomorphismen der Rang der Darstellungsmatrix unabhängig von der Wahl der Basis ist: Def inition 14.11 (Rang einer Bilinearform). Der Rang einer Bilinearform s : V × V → K ist der Rang rang(MB (s)) der Darstellungsmatrix bezüglich einer Basis B des Vektorraums V . Def inition 14.12 (Positiv definite Matrix). Eine reelle, quadratische Matrix A ∈ Mn,n (R) heißt positiv definit, wenn xT Ax ≥ 0 für alle x ∈ Rn und xT Ax = 0 gdw. x = 0. Offenbar gilt: −1 2Zur Erinnerung: GL (K) = A ∈ M existiert ist die Gruppe der invertierbaren n n,n (K) A n × n-Matrizen über K. 178 14. Reelle und komplexe Vektorräume Korollar 14.13. Sei V ein R-Vektorraum mit Basis B und s : V × V → R eine Bilinearform. Genau dann ist s ein Skalarprodukt auf V , wenn die Matrix MB (s) symmetrisch und positiv definit ist. Für den reellen Vektorraum Rn ist hv, wi = v T w das Standardskalarprodukt. Auch für den komplexen Vektorraum Cn gibt es ein kanonisches Skalarprodukt:3 n X T vi wi . hv, wiC = v w = i=1 1 2 -linear), Die Abbildung h·, ·iC ist sesquilinear (d.h. 1 + es gilt hv, wiC = hw, viC und hv, viC ∈ R≥0 sowie die Äquivalenz hv, viC = 0 gdw. v = 0. Def inition 14.14 (Sesquilinearform). Sei V ein C-Vektorraum. Eine Abbildung s : V × V → C heißt sesquilinear (Sesquilinearform) auf V , wenn für alle u, v, w ∈ V und λ ∈ C gilt: (SE1) s(u + v, w) = s(u, w) + s(v, w) und s(λv, w) = λ · s(v, w). (SE2) s(u, v + w) = s(u, v) + s(u, w) und s(v, λw) = λ · s(v, w). Eine Sesquilinearform h : V × V → C heißt hermitesch (hermitesche Form), wenn h(v, w) = h(w, v) für alle v, w ∈ V . Für hermitesche Formen h gilt h(v, v) = h(v, v), so dass h(v, v) stets reell ist: Def inition 14.15 (Positiv definite, hermitesche Form). Eine hermitesche Form h : V × V → C eines C-Vektorraums V heißt positiv definit, wenn für alle v ∈ V gilt: a) h(v, v) ≥ 0. b) h(v, v) = 0 gdw. v = 0. Zu einem reellen Vektorraum V nennt man eine symmetrische Bilinearform, die positiv definit ist, Skalarprodukt auf V . Für komplexe Vektorräume heißen hermitesche Formen, die positiv definit sind, Skalarprodukte: Def inition 14.16 (Skalarprodukt). Sei V ein C-Vektorraum. Eine hermitesche Form h : V × V → C heißt Skalarprodukt auf V , wenn h positiv definit ist. Def inition 14.17 (Hermitische und positiv definite Matrix). Eine Matrix A ∈ Mn,n (C) heißt a) hermitesch, wenn A = AT . b) positiv definit, wenn xT Ax ∈ R≥0 für alle x ∈ Cn und xT Ax = 0 gdw. x = 0. Für eine Matrix A mit reellen Einträgen bedeutet A = AT wegen A = A, dass die Matrix symmetrisch ist. Korollar 14.18. Sei V ein C-Vektorraum mit Basis B und s : V × V → C eine Bilinearform. Genau dann ist s ein Skalarprodukt auf V , wenn die Matrix MB (s) hermitesch und positiv definit ist. 3Zur Erinnerung: Zu a + ib ∈ C ist die konjugierte komplexe Zahl a + ib = a − ib. Die Abbildung x 7→ x ist ein Automorphismus des Körpers C mit x = x. Es gilt y = y gdw. y ∈ R. Für z = a + ib ∈ C gilt zz = a2 + b2 ∈ R. 2. Bilineare, Sesquilineare und quadratische Formen 179 Wir haben bereits in Kapitel 11 den Begriff euklidischer Vektorraum“ für einen ” reellen Vektorraum in Verbindung mit einem Skalarprodukt verwendet: Def inition 14.19 (Euklidischer bzw. unitärer Vektorraum). Ein euklidischer (unitärer) Vektorraum V ist ein R-Vektorraum (C-Vektorraum) zusammen mit einem Skalarprodukt auf V . Wir ordnen jeder Bilinearform eine quadratische Form zu: Def inition 14.20 (Quadratische Form). Sei s : V × V → K eine Bilinearform auf einem K-Vektorraums V . Die zugehörige, quadratische Form q : V → K ist erklärt durch q(v) := s(v, v). Ist die Bilinearform durch s(Bt, Bt0 ) = t·MB (s)·t0 gegeben, gilt für die zugehörige, quadratische Form q((Bt) = t · MB (s) · t. Faßt man die Koordinaten t1 , . . . , tn von t als formale Variable auf, gilt q ∈ K[t1 , . . . , tn ]. Dies ist ein quadratisches Polynom, homogen vom Grad 2. Satz 14.21. Sei K ein Körper mit Charakteristik4 char(K) 6= 2. Für die zugehörige, quadratische Form q einer symmetrischen Bilinearform s : V × V → K auf dem K-Vektorrraum gilt: s(v, w) = 21 q(v + w) − q(v) − q(w) . Beweis. Aus der Bilinearität von s folgt: (1 + 1) · s(v, w) = s(v + w, w) − s(w, w) + s(v, w + v) − s(v, w) . | {z } | {z } =s(v,w) =s(v,w) Wegen der Voraussetzung char(K) 6= 2 ist 1 + 1 6= 0 und wir können durch (1 + 1) dividieren. In Satz 11.12 auf Seite 123 haben wir die Cauchy-Schwarz-Ungleichung bereits für euklidische Vektorräume bewiesen. Satz 14.22 (Cauchy-Schwarz-Ungleichung). In jedem euklidischen oder unitärem Vektorraum V gilt für v, w ∈ V : |hv, wi| ≤ kvk · kwk . Die Gleichheit gilt genau dann, wenn beide Vektoren linear abhängig sind. Der Beweis der Cauchy-Schwarz-Ungleichung, den wir im folgenden geben, basiert auf folgenden Satz aus [Fischer92]: 4Wir führen die Charakteristik eines Körpers in Kapitel 15 ein. Die Charakteristik der Körper Q, R und C ist zum Beispiel Null, die der endlichen Körper Zp ist gleich p. Für Körper mit char(K) 6= 2 gilt 1 + 1 6= 0. 180 14. Reelle und komplexe Vektorräume Fakt 14.23 (Determinanten-Multiplikations-Theorem). Sei A = (a1 , . . . , an ) ∈ Mm,n (K) und B = (b1 , . . . , bm ) ∈ Mn,m (K). Dann gilt für für die m × m-Matrix AB T : X det(AB T ) = det(ai1 , . . . , aim ) · det(bi1 , . . . , bim ). 1≤i1 ≤···≤im ≤n Insbesondere ist det AB T = 0 für n < m. Aus dem Determinanten-Multiplikations-Theorem folgern wir, dass für jede m × nMatrix A über einem Körper K gilt: X det AAT = det(ai1 , . . . , aim )2 . 1≤i1 ≤···≤im ≤n Speziell: a) Für K = R gilt det AAT ≥ 0. b) Für K = C ist det AAT eine reelle Zahl größer oder gleich Null. Wir wollen nun die Cauchy-Schwarz-Ungleichung aus Satz 14.22 beweisen. O.B.d.A. sei V = Cn . Zu v = (v1 , . . . , vn )T ∈ Cn und w = (w1 , . . . , wn )T ∈ Cn erkläre T v v1 · · · vn A := = ∈ M2,n (C). wT w1 · · · wn Für die Determinante der Matrix T AA = hv, vi hv, wi hw, vi hw, wi gilt nach vorherigen Folgerungen aus dem Determinanten-Multiplikations-Theorem: det AAT = hv, vi · hw, wi − hv, wi · hw, vi = kvk2 · kwk2 − |hv, wi|2 ≥ 0. Also |hv, wi|2 ≤ kvk2 · kwk2 . Für die Gleichheit haben wir folgende Äquivalenz: |hv, wi|2 = kvk2 · kwk2 ⇐⇒ det AAT = 0. Die Forderung det AAT = 0 ist gleichbedeutend damit, dass die 2 × 2-Matrix AAT nicht vollen Rang hat, d.h. der Rang von A ist maximal 1. |hv, wi|2 = kvk2 · kwk2 ⇐⇒ v, w linear abhängig. Wir geben einen weiteren Beweis der Cauchy-Schwarz-Ungleichung aus Satz 14.22 in Übungsaufgabe 19.1 mit Hilfe einer Isometrie5 ψ : span(v, w) → C2 mit ψ(v) ∈ (0, 1)T C. 5D.h. hv, wi = hψ(v), ψ(w)i für alle v, w. 3. Hauptachsentransformation symmetrischer Matrizen 181 3. Hauptachsentransformation symmetrischer Matrizen Der zentrale Satz dieses Abschnitt lautet: Satz 14.24. Für symmetrische Matrizen A ∈ Mn,n (R) sind folgende Aussagen äquivalent: a) A ist positiv definit. b) Es existiert eine invertierbare Matrix T ∈ GLn (R) mit A = T T T . Vor dem Beweis zu Satz 14.24 folgern wir: Korollar 14.25. Im Rn geht jedes Skalarprodukt h·, ·i : Rn × Rn → R durch einen Basiswechsel aus dem kanonischen Skalarprodukt h·, ·ikan hervor. Beweis. Sei I = {e1 , . . . , en } die Standardbasis des Rn und B = IT eine weitere Basis (mit Transformationsmatrix T ). Dann gilt: hIt, Isikan = ht, sikan = tT s. Sei andererseits h·, ·i ein beliebiges Skalarprodukt auf den Koordinatenvektoren. Mit A := T T T gilt: ht, si = tT As Sei A := BT . Der Koordinatenvektor zu b := Bt ∈ Rn bezüglich A ist s := T −1 t, denn b = Bt = BT T −1 t = As. Der Koordinatenvektor zu b0 := Bt0 ∈ Rn bezüglich A ist s0 := T −1 t0 . Das kanonische Skalarprodukt zur Basis A ist: 0 0 T b, b kan = Bt, Bt0 kan = T t, T t0 kan = tT T | {zT} t . =:A Das kanonische Skalarprodukt geht beim Basiswechsel in ein beliebiges Skalarprodukt der Koordinantenvektoren über. Wir kommen zum Beweis von Satz 14.24: Beweis. Die Rückrichtung von von Satz 14.24 ist offensichtlich: tT T T T t = (T t)T · (T t) ≥ 0. Sei A = (ai,j )1≤i,j≤m symmetrisch und positiv definit. Für die obere Dreiecksmatrix a13 a1n 1 − aa12 − · · · − a a11 11 11 0 1 0 · · · 0 .. .. .. .. T1 := . ∈ ODn (R) (39) . . . 0 · · · ··· 1 0 0 ··· ··· 0 1 182 14. Reelle und komplexe Vektorräume gilt: T1T AT1 = a11 0 . 0 A0 Weil A positiv definit ist, gilt a11 > 0 und A0 ist ebenfalls positiv definit. Wende die entsprechende Transformationsmatrix induktiv auf A0 an. Es existiert ein Tn ∈ GLn (R) mit a11 0 · · · · · · 0 0 a22 0 .. .. .. .. T . . . D := Tn ATn = . .. 0 . 0 0 0 0 0 · · · 0 ann √ √ √ √ Setze T := Tn / D mit D := Diag( a11 , . . . , ann ). Dann gilt T T AT = In . Falls die Matrix A über einem beliebigem Körper K ist, können wir, sofern A 6= 0, o.B.d.A. a11 6= 0 in Gleichung (39) voraussetzen (permutiere gegenenfalls die Zeilen und Spalten von A derart, dass die erste Zeile von A nicht Null ist). Führt man den Beweis wie in Satz 14.24, folgt: Korollar 14.26. Sei K ein Körper und A ∈ Mn,n (K) eine symmetrische Matrix. Dann gibt es ein T ∈ GLn (K), so dass D := T T AT eine Diagonalmatrix ist bzw. es gilt A = (T −1 )T DT −1 . Wir folgern weiter aus dem Beweis zu Satz 14.24: Korollar 14.27. Sei A ∈ Mn,n (R) eine symmetrische Matrix. Dann gibt es ein T ∈ GLn (R) mit D = T T AT für eine Diagonalmatrix D mit Einträgen aus {±1, 0}. Beweis. Wegen Korollar 14.26 sei o.B.d.A. A eine Diagonalmatrix: a11 0 · · · · · · 0 0 a22 0 .. .. .. .. . . . A= . .. 0 . 0 0 0 0 0 · · · 0 ann Definere die Matrix T = (tij )1≤i,j≤n gemäß √1 falls i = j und aii > 0. aii √ 1 falls i = j und aii < 0. −aii tij := 1 falls i = j und aii = 0. 0 falls i 6= j. Offenbar ist D := T T AT eine Diagonalmatrix mit Einträgen aus {±1, 0}. 3. Hauptachsentransformation symmetrischer Matrizen 183 Korollar 14.28. Sei V ein R-Vektorraum und s : V × V → R eine Bilinearform. Dann gibt es eine Basis B sowie eine Diagonalmatrix D mit Einträgen aus {±1, 0}, für die gilt: s(Bt, Bt0 ) = tT Dt0 . Wir haben in Definition 14.7 auf Seite 176 eine Bilinearform s : V × V → R eines R-Vektorraums V positiv definit genannt, wenn für alle v ∈ V a) s(v, v) ≥ 0 b) s(v, v) = 0 gdw. v = 0 gilt. Wir wollen die Bezeichung negativ definit“ für den Fall, dass s(v, v) ≤ 0 für alle ” v ∈ V ist, einführen: Def inition 14.29 (Negativ definite und indefinite Bilinearform). Eine Bilinearform s : V × V → R eines R-Vektorraums V heißt negativ definit, wenn −s positiv definit ist. Die Bilinearform nennt man indefinit, wenn s(v, v) sowohl negative als auch positive Werte annimmt. Def inition 14.30 (Degeneriete Bilinearform). Eine Bilinearform s : V × V → R eines R-Vektorraums V nennt man degeneriert, wenn für ein v ∈ V \ {0} gilt s(v, ·) ≡ 0. Zu einer Bilinearform s : V × V → R ist der Nullraum N(s) erklärt als die Menge aller Vektoren v ∈ V , für die s(v, ·) die Nullabbildung, also s(v, ·) ≡ 0, ist. Offenbar ist N(s) ein Untervektorraum von V : Def inition 14.31 (Nullraum einer Bilinearform). Zur Bilinearform s : V × V → R eines R-Vektorraums V heißt N(s) := {v ∈ V | s(v, ·) ist Nullabbildung } der Nullraum (auch Ausartungsraum). Die Bilinearform s : V × V → R ist genau dann degeneriert, falls der Nullraum N(s) neben der Null weitere Vektoren enthält, also dim N(s) > 0. Lemma 14.32. Sei s : V × V → R Bilinearform eines R-Vektorraums V . Dann gilt: dim N(s) + rang s = dim V. Beweis. Sei B eine Basis von D, so dass eine Diagonalmatrix D mit Einträgen aus {±1, 0} und s(Bt, Bt0 ) = tT Dt0 . existiert (Korollar 14.28). Dann ist: dim N(s) = {i | dii = 0 } rang s = {i | dii 6= 0 } Aus rang s = dim V − dim N(s) folgt die Behauptung. 184 14. Reelle und komplexe Vektorräume 4. Unitäre Endomorphismen und Matrizen Wir hatte bereits auf Seite 127 orthogonale Abbildungen und Matrizen für den Rn eingeführt. Diese Begriffe übertragen wir auf den Fall komplexer Vektorräume: Def inition 14.33 (Orthogonale und unitäre Endomorhismus). Sei V ein euklidischer (unitärer) Vektorraum mit Skalarprodukt h·, ·i. Ein Endomorhismus f : V → V heißt orthogonal (unitär), wenn für alle v, w ∈ V gilt: hv, wi = hf (v), f (w)i . Man verwendet alternativ auch die englische Bezeichnung Isometrie“. Die Spalten” und die Zeilenvektoren einer orthogonalen bzw. unitären Matrix bilden bezüglich des kanonischen Skalarprodukts jeweils eine Orthonormalbasis6 des Rn bzw. Cn . Mit f ist auch die inverse Abbildung f −1 ein unitärer Endomorphismus. Für die Eigenwerte λ von f gilt |λ| = 1. Def inition 14.34 (Orthogonale und unitäre Matrix). Eine reelle, quadratische Matrix A ∈ Mn,n (R) heißt orthogonal, wenn AT A = In . Eine komplexe, quadratische Matrix A ∈ Mn,n (C) heißt unitär, wenn AT A = In . Die Menge der orthogonalen n × n-Matrizen bezeichnet man mit On (R), die er unitären Matrizen mit Un (C). In Satz 11.24 auf Seite 128 haben wir gezeigt, dass On (R) eine Gruppe ist. Analog weist man nach, dass Un (C) ebenfalls eine Gruppe ist. Satz 14.35. Sei V ein euklidischer (unitärer) Vektorraum mit Orthonormalbasis B. Der Endomorphismus f : V → V ist genau dann orthogonal (unitär), wenn die Darstellungsmatrix MB (f ) orthogonal (unitär) ist. Beweis. Da B orthonormal ist, haben wir hBt, Bsi = ht, si. Falls f unitär ist, gilt hMB (f )t, MB (f )si = tT MB (f )T · MB (f )s. Der Endomorphismus f ist genau dann unitär, wenn MB (f )T · MB (f ) = In ist. Satz 14.36. Sei V ein unitärer Vektorraum und f : V → V ein Endomorphismus. Dann gibt es eine Orthonormalbasis von V bestehend aus Eigenvektoren von f . Beweis. Wir führen den Beweis durch Induktion über die Dimension n := dim V . Die Verankerung ist offensichtlich, so dass im weiteren n ≥ 2 sei. Das charakteristische Polynom χf ∈ C[X] hat gemäß Fundamentalsatz der Algebra (Fakt 4.23 auf Seite 52) eine Nullstelle λ1 ∈ C. Da f ein Isomorphismus ist, gilt λ1 6= 0. Es gibt einen Eigenvektor v1 ∈ V \ {0} zu λ1 mit f (v1 ) = λ1 v1 . Sei W := {w ∈ V | hv1 , wi = 0 } = span(v1 )⊥ . Weil f ein Isomorphismus ist, genügt der Nachweis der Inklusion f (W ) ⊆ W , um f (W ) = W zu zeigen. Für w ∈ W gilt: λ1 hv1 , f (w)i = hλ1 v1 , f (w)i = hf (v1 ), f (w)i = hv1 , wi = 0. 6Zur Erinnerung: Die Basis b , b , . . . , b heißt Orthonormalbasis, wenn hb , b i = δ 1 2 n i j i,j für 1 ≤ i, j ≤ n. 4. Unitäre Endomorphismen und Matrizen 185 Nach Induktionsannahme gibt es eine Orthonormalbasis von W bestehend aus Eizu einer genvektoren von f |W . Wir ergänzen diese Basis durch den Vektor √ v1 hv1 ,v1 i Orthonormalbasis von V bestehend aus Eigenvektoren von f . Korollar 14.37. Sei A ∈ Un (C) eine unitäre Matrix. Dann existiert eine unitäre Matrix S ∈ Un (C) mit λ1 0 .. S −1 AS = . 0 λn für λ1 , . . . , λn ∈ C mit |λi | = 1. Insbesondere ist A diagonalisierbar. Beweis. Fasse A als Darstellungsmatrix von f bezüglich einer Orthogonalbasis von V auf. Dann ist λ1 0 .. . 0 λn die Darstellungsmatrix bezüglich einer Orthonormalbasis aus Eigenvektoren. Die Matrix S ∈ Un (C) transformiert die beiden Orthonormalbasen ineinander. Wir leiten in Übungsaufgabe 21.3 eine Darstellung wie in Korollar 14.37 her, für den Fall, dass die Matrix A reelle Einträge hat: Satz 14.38. Sei A ∈ On (R). Dann existiert eine orthogonale Matrix S ∈ On (R), so dass S T AS eine Diagonalmatrix mit Kästchen der Form cos ϕ − sin ϕ cos ϕ sin ϕ ±1 , , sin ϕ cos ϕ − sin ϕ − cos ϕ ist. Wir erhalten: Korollar 14.39. Sei V ein euklidischer Vektorraum und f : V → V ein orthogonaler Endomorphismus. Dann gibt es zu V eine Orthonormalbasis B derart, dass die Darstellungmatrix MB (f ) von f zur Basis B eine Diagonalkastenmatrix mit Kästchen der Form cos ϕ − sin ϕ cos ϕ sin ϕ ±1 , , sin ϕ cos ϕ − sin ϕ − cos ϕ mit ϕ ∈ [0, 2π) ist. Bemerkung 14.40. Die Kastenmatrix cos ϕ sin ϕ SPϕ := ∈ O2 (R) − sin ϕ − cos ϕ in Satz 14.38 und Korollar 14.39 stellt eine Spiegelung an einer Geraden dar. Es gibt eine orthogonale Matrix S ∈ O2 (R) mit +1 0 T S · SPϕ ·S = , 0 −1 186 14. Reelle und komplexe Vektorräume so dass die Kastenmatrix der Form SPϕ in Satz 14.38 und Korollar 14.39 entfällt. Um dies zu zeigen, betrachte das charakteristische Polynom der Kastenmatrix SPϕ : cos ϕ − λ sin ϕ χSPϕ (λ) = det − sin ϕ − cos ϕ − λ = (cos ϕ − λ)(− cos ϕ − λ) − sin2 ϕ = λ2 − cos2 ϕ − sin2 ϕ = λ2 − 1. Die Matrix SPϕ hat die beiden Eigenwerte ±1: • Eigenvektor zum Eigenwert +1 ist (− sin ϕ, cos ϕ − 1)T . • Eigenvektor zum Eigenwert −1 ist (− sin ϕ, cos ϕ + 1)T . Man kann für S ∈ O2 (R) die Matrix √ − sin ϕ 2−2 cos ϕ √cos ϕ−1 2−2 cos ϕ √ − sin ϕ 2+2 cos ϕ √cos ϕ+1 2+2 cos ϕ ! wählen. 5. Normalform selbstadjungierter Endomorphismen Wir beginnen mit der Definition von selbstadjungierten Endomorphismen: Def inition 14.41 (Selbstadjungierter Endomorphismus). Sei V ein euklidischer (unitärer) Vektorraum endlicher Dimension. Ein Endomorphismus f : V → V heißt selbstadjungiert, wenn für alle v, w ∈ V gilt: hf (v), wi = hv, f (w)i . In Satz 14.35 auf Seite 184 haben wir gesehen, dass ein Endomorphismus genau dann orthogonal (unitär) ist, wenn die Darstellungsmatrix bezüglich einer Orthonormalbasis orthogonal (unitär) ist. Sollte die Matrix hingegen symmetrisch (hermitesch) sein, so ist dann und nur dann der Endomorphismus selbstadjungiert: Satz 14.42. Sei V ein euklidischer (unitärer) Vektorraum mit Orthonormalbasis B. Ein Endomorphismus f : V → V ist genau dann selbstadjungiert, wenn die Darstellungsmatrix MB (f ) symmetrisch (hermitesch) ist. Beweis. Weil B eine Orthonormalbasis ist, gilt hBt, Bsi = ht, si. Für die Darstellungsmatrix A := MB (f ) zur Basis B haben wir f (Bt) = BAt. Somit: hf (Bt), Bsi = hBAt, Bsi = hAt, si = tAT s hBt, f (Bs)i = hBt, BAsi = ht, Asi = tAs. Damit ist f selbstadjungiert dann und nur dann, wenn A = AT . Satz 14.43 (Hauptachsentheorem). Sei V ein euklidischer (unitärer) Vektorraum. Ein Endomorphismus f : V → V ist selbstadjungiert genau dann, wenn es eine Orthonormalbasis von V bestehend aus Eigenvektoren von f gibt. 5. Normalform selbstadjungierter Endomorphismen 187 Bevor wir Satz 14.43 beweisen, folgern wir: Korollar 14.44. Eine komplexe, quadratische Matrix A ∈ Mn,n (C) ist genau dann hermitesch, wenn es eine unitäre Matrix S ∈ Un (C) gibt, für die Diagonalmatrix D := S −1 AS = S T AS reeell ist. Im Gegensatz zu Korollar 14.37 auf Seite 185 sind die Diagonalelemente von D stets reell. Im Falls A ∈ Mn,n (R) ist S ∈ On (R) eine orthogonale Matrix. Beweis. Wir beweisen Korolllar 14.44. Sei A hermitesch. Wähle ein Orthonormalbasis b1 , . . . , bn von Cn bestehend aus Eigenvektoren der Matrix A, eine solche existiert nach Satz 14.43. Setze S := b1 b2 · · · bn ∈ Un (C). Es gilt: b1 T b1 S T AS = 0 hb1 , b1 iC .. = . T bn bn 0 0 0 .. . hbn , bn iC ∈ Mn,n (R). Die Rückrichtung zeigt man analog. Wir kommen zum Beweis von Satz 14.43: Beweis. Der Endomorphismus f : V → V sei selbstadjungiert. Durch Induktion über dim V konstruieren wir eine Orthonormalbasis von V bestehend aus Eigenvektoren von f . Sei λ1 eine Nullstelle des Charakteristischen Polynoms χf ∈ C[X] und v1 ∈ V Eigenvektor zum Eigenwert λ1 , d.h. f (v1 )) = λ1 v1 und v1 6= 0. Es gilt: λ1 hv1 , v1 i = hλ1 v1 , v1 i = hf (v1 ), v1 i . Weil f selbstadjungiert ist, erhalten wir λ1 hv1 , v1 i = hv1 , f (v1 )i = hv1 , λ1 v1 i = λ1 hv1 , v1 i , so dass λ1 reell ist. Setze W := {w ∈ V | hv1 , wi = 0 } ⊆ V. W ist offenbar ein Untervektorraum von V . Es gilt f (W ) ⊆ W , denn für w ∈ W ist: hv1 , f (w)i = hf (v1 ), wi = hλ1 v1 , wi = λ1 hv1 , wi Der Endomorphismus f : W → W ist gemäß Voraussetzung selbstadjungiert. Nach Induktionsannahme gibt es eine Orthonormalbasis von W mit Eigenvektoren von v1 liefert dies die gewünschte Orthonormalbasis von V . f |W . Zusammen mit √ 1 hv1 ,v1 i Für die Rückrichtung sei v1 , . . . , vn eine Orthonormalbasis von V , wobei vi Eigenvektor von f zum Eigenwert λi ist. Wegen X X X X X f ti vi , si vi = λi ti si = ti vi , f si vi i ist f selbstadjungiert. i i i i 188 14. Reelle und komplexe Vektorräume Satz 14.45. Sei V ein euklidischer (unitärer) Vektorraum und f : V → V ein selbstadjungierter und invertierbarer Endomorphismus. Dann ist ist f −1 ebenfalls selbstadjungiert. Beweis. Es gilt: f −1 (v), f (w) = f f −1 (v), w = hv, wi . Also f −1 (v), w = v, f −1 (w) , so dass f −1 selbstadjungiert ist. Bezogen auf die Darstellungsmatrix gilt: Korollar 14.46. Ist A ∈ GLn (C) hermitesch, so auch A−1 . Satz 14.47 (Polarzerlegung). Sei A ∈ GLn (C). Dann gibt es eine eindeutige Zerlegung A = BC mit unitärer Matrix B ∈ Un (C) und positiv definiter, hermitescher Matrix C ∈ Mn,n (C). Beweis. Die Matrix AT A ist hermitesch, denn (AT A)T = AT A = AT A, ferner ist AAT positiv definit: xT (AT A)x = (Ax)T · ( Ax) ≥ 0. Nach Korollar 14.44 gibt es ein S ∈ Un (C) mit D := S T AT A S ∈ Mn,n (R). Seien s1 , . . . , sn die Spaltenvektoren von S. S := {s1 , . . . , sn } ist eine Orthonormalbasis mit Eigenvektoren si von AAT zum Eigenwert λi > 0. √ Definiere einen Endomorphismus f : Cn → Cn durch f (si ) := λi si . Es gilt f (f (St)) = S(Dt), d.h. MS (f ) = MS (f 2 ) = D. Sei I die Basis bestehend aus den kanonischen Einheitsvektoren, der Basiswechsel von S ist gegeben durch die Transformationsmatrix S −1 . MI (f 2 ) = S · MS (f 2 ) · S −1 = SDS −1 = AT A. Setze C := MI (f ) und B := AC −1 . Somit gilt A = BC. denn √ Dann ist C hermitesch, √ die Darstellungsmatrix zur Orthogonalbasis S ist D mit Eigenwerten λi . Nach Übungsaufgabe 22.1 ist C positiv definit. Zu zeigen bleibt, dass B unitär ist: B −1 = CA−1 = C −1 C 2 A−1 = C −1 AT AA−1 T = C −1 AT = AT (C −1 )T = ( A · C −1 )T = (AC −1 )T = B T Betrachten wir zum Abschluß die Eindeutigkeit der Zerlegung. Angenommen, A = BC = B 0 C 0 mit unitären Matrizen B, B und hermiteschen Matrizen C, C 0 . Dann gilt: C 2 = AT A = ( B 0 C 0 )T B 0 C 0 = C 0 T · B 0 T · B 0 C 0 = C 0 T · C 0 = (C 0 )2 , Offenbar stimmen die Eigenwerte und die Eigenvektoren von C, C 0 überein (benutze, dass C, C 0 positiv definit ist). Dann gilt für die hermiteschen Matrizen C = C 0 . 5. Normalform selbstadjungierter Endomorphismen 189 Für reelle Matrizen lautet Satz 14.47: Korollar 14.48. Sei A ∈ GLn (R). Dann gibt es eine eindeutige Zerlegung A = BC mit orthogonaler Matrix B ∈ On (R) und positiv definiter, symmetrischer Matrix C. Korollar 14.49. Sei A ∈ GLn (C). Dann gibt es eine eindeutige Zerlegung A = BC mit unitärer Matrix B ∈ Un (C) und positiv definiter, hermitescher Matrix C. Beweis. Wende Satz 14.47 an auf AT . Sei AT = BC die Polarzelegung mit unitärer Matrix B ∈ Un (C) und positiv definiter, hermitescher Matrix C ∈ Mn,n (C). Aus den Eigenschaften von B und C folgt: A = C T · B T = CB −1 . Wie die Ähnlichkeitsrelation von Seite 105 ist die im folgenden erklärte Kongruenzrelation eine Äquivalenzrelation auf der Menge der reellen (bzw. komplexen) n × nMatrizen: Def inition 14.50 (Kongruente Matrizen). Zwei quadratische Matrizen A, B ∈ Mn,n (R) oder Mn,n (C), heißen kongruent, A ≈ B, wenn es eine invertierbare Matrix T ∈ GLn (R) bzw. GLn (C) gibt mit A = T T BT. Der Nachweis, dass diese Relation eine Aquivalenzrelation ist, führt man wie den entsprechende Beweis für die Ähnlichkeitsrelation in Satz 10.2 auf Seite 105. Def inition 14.51 (Trägheitsindex). Der Trägheitsindex einer hermiteschen Matrix A ∈ Mn,n (C) ist die mit Vielfachheit gezählte Anzahl t(A) der positiven Eigenwerte von A. Satz 14.52 (Trägheitssatz von Sylvester). Seien A, B ∈ Mn,n (R) oder Mn,n (C). Genau dann sind A, B kongruent, wenn ihre Ränge und Trägheitsindizes übereinstimmmen: A≈B ⇐⇒ rang A = rang B und t(A) = t(B). Wir beweisen den Trägheitssatz von Sylvester für den Fall komplexer Matrizen. Wir beginnen zunächst mit einem Lemma: Lemma 14.53. Sei A ∈ Mn,n (C). Dann gilt für den Trägheitsindex von A: V ist ein Untervektorraum von Cn , so t(A) = max dim V dass xT Ax positiv definit auf V ist. Beweis. Wir zeigen zunächst die ≥“-Ungleichung. Seien v1 , . . . , vt(A) linear un” abhängige Eigenvektoren von A zu positiven Eigenwerten. Dann ist xT Ax positiv definit auf span(v1 , . . . , vt(A) ). Für den Beweis der ≤“-Relation führen wir die Annahme dim V > t(A) zum Wi” derspruch. Sei v1 , . . . , vn eine Basis von Cn aus Eigenvektoren von A zu Eigenwerten 190 14. Reelle und komplexe Vektorräume λ1 , . . . , λn ∈ R (nach Satz 14.43 auf Seite 186). O.B.d.A. gelte λ1 , . . . , λt(A) > 0 λt(A)+1 , . . . , λr < 0 λr+1 , . . . , λn = 0. Wegen dim V > t(A) gibt es ein w ∈ V ∩ span(v1 , . . . , vt(A) )⊥ , w 6= 0, mit der P Darstellung w = ni=t(A)+1 ti vi . wT Aw = n X ti ti λi < 0. i=t(A)+1 Also ist xT Ax nicht positiv definit auf V — Widerspruch. Kongruente Matrizen haben den gleichen Trägheitsindex, denn die rechte Seite in Lemma 14.53 ändert sich nicht: Genau dann ist xT Ax positiv definit auf V , wenn xT T T AT x positiv definit auf T (V ) ist: Korollar 14.54. Sei A ∈ Mn,n (C) und T ∈ GLn (C). Dann gilt: t(A) = t(T T AT ). Aus Korollar 14.54 folgt bereits eine Implikation des Trägheitssatzes von Sylvester: Sind die Matrizen A, B kongruent, so stimmen ihre Ränge und Trägheitsindizes überein. Sei umgekehrt t(A) rang A +1 .. 0 . +1 −1 .. . −1 0 0 .. . 0 ≈ A. Man vertausche und normiere die Eigenwerte der Diagonalmatrix D nach Korollar 14.44 auf Seite 187. Stimmen Ränge und Trägheitsindizes überein, also rang A = rang B und t(A) = t(B), gilt A ≈ B. Damit ist der Trägheitssatz von Sylvester bewiesen. Zum Abschluß betrachten wir die Zerlegung eines reellen Vektorraums V bezüglich einer symmetrischen Bilinearform s : V × V → R. Sei • V 0 := N(s) = {v ∈ V | s(v, ·) ist Nullabbildung } der Nullraum. • V + ⊆ V Unterraum max. Dimension, so dass s positiv definit auf V + ist. • V − ⊆ V Unterraum max. Dimension, so dass s negativ definit auf V − ist. Satz 14.55. Es gilt V = V 0 ⊕ V + ⊕ V − . Beweis. O.B.d.A. sei V = Rn . Sei s(v, w) = v T Aw und A symmetrisch. Dann gilt A ≈ D ∈ {±1, 0}n×n . Der Satz gilt offenbar für D. Kapitel 15 Endliche Körper In diesem Kapitel charakterisieren wir endliche Körper. Wir zeigen, dass jeder endliche Körper pn Elemente hat, wobei p eine Primzahl und n eine natürliche Zahl ist. Umgekehrt geben wir ein Verfahren an, um zu jeder gegebenen Primzahl p und jedem n ∈ N einen Körper mit pn Elementen konstruiert. Ferner betrachten wir in Abschnitt 4 die Struktur der multiplikativen Gruppe endlicher Körper. Zur Erinnerung: Wir kennen bereits eine spezielle Klasse endlicher Körper: In Satz 2.28 auf Seite 27 haben wir gezeigt, dass der Ring Zn der Restklassen modulo n genau dann ein Köper ist, wenn n prim ist. Damit haben wir bereits endliche Körper mit p Elementen kennengelernt. 1. Charakteristik Sei K ein Körper. Wir führen folgenden Notation ein: 0 · 1 = 0, n · 1 = 1| + 1 + {z· · · + 1}, (−n) · 1 = −(n · 1), n∈N n-mal Dabei ist 1 das multiplikative neutrale Element und + die Addition in K. Die Notation n · 1 sollte dabei nicht mit der Multiplikation n · 1 = n im Körper verwechselt werden. Schreiben wir folgenden n · 1, so ist stets die hier eingeführte Notation gemeint. Man verifiziert leicht mittels der Körperaxiome, dass die folgenden Rechenregeln für alle m, n ∈ Z gelten: (mn) · 1 = (m · 1)(n · 1), (m + n) · 1 = (m · 1) + (n · 1) (40) Wir können die Notation n · 1 formal als Abbildung ϕK : Z → K mit ϕK (n) = n · 1 auffassen. Diese Abbildung ist gemäß der Eigenschaften (40) ein Ringhomomorphismus. 191 192 15. Endliche Körper Def inition 15.1 (Charakteristik). Sei K ein Körper. Die Charakteristik von K ist definiert durch: ( 0 n · 1 6= 0 für alle n ∈ N char K = min {n ∈ N | n · 1 = 0 } sonst. Es gilt beispielsweise char R = 0 und char Zp = p. Für Körper mit Charakteristik 0 sind alle Werte n · 1 verschieden, denn aus m · 1 = n · 1 für m ≤ n folgt 0 = (n · 1) − (m · 1) = (n − m) · 1, doch dies ist nach Definition der Charakteristik nur für m = n möglich. Insbesondere zeigt dies, dass der Homomorphismus ϕK für Körper K mit char K = 0 injektiv ist. Ferner erhalten wir, dass die Charakteristik eines endlichen Körpers stets verschieden von 0 ist. Andererseits gibt es unendliche Körper, deren Charakteristik ungleich 0 ist (beispielsweise hat Zp (x), der kleinste Körper, der alle Polynome in der Variablen x mit Koeffizienten aus Zp enthält, unendlich viele Elemente, aber die Charakteristik p). Die Beispiele R und Zp sind Körper mit Charakteristik 0 bzw. primer Charakteristik. Der folgende Satz zeigt, dass die Charakteristik nur diese Werte annimmt: Satz 15.2. Sei K ein Körper. Dann ist char K entweder 0 oder prim. Beweis. Sei char K = n = ab für a, b, n ∈ N mit 1 < a, b < n. Dann gilt 0 = n · 1 = (ab) · 1 = (a · 1)(b · 1). Da der Körper K nullteilerfrei ist, folgt a · 1 = 0 oder b · 1 = 0 und somit ein Widerspruch zur Minimalität von n. n Wir betrachten die Frobenius-Abbildung σp,n : K → K mit x 7→ xp in Körpern mit Charakteristik p 6= 0. Der folgende Satz zeigt, dass die Abbildung in diesen Körpern homomorph ist. Satz 15.3. Sei K ein Körper mit char K = p 6= 0. Dann ist die Frobenius-Abbildung σp,n für alle n ∈ N ein Ringhomomorphismus, d.h. für alle x, y ∈ K gilt: n σp,n (x + y) = (x + y)p n σp,n (xy) = (xy)p n n = xp + y p n n = xp y p = σp,n (x) + σp,n (y) = σp,n (x)σp,n (y) Beweis. Die multiplikative Formel ist offensichtlich. Wir betrachten die additive Eigenschaft zunächst für den Fall n = 1. Nach der binomischen Formel gilt: p−1 X p · 1 xk y p−k + y p (x + y)p = xp + k k=1 Da p! = kp k!(p − k)! über Z und keiner der Faktoren k! und (p − k)! für 1 ≤ k, p − k ≤ p p− 1 von der Primzahl p geteilt wird, muß k durch p teilbar sein. Dann ist aber p k · 1 = 0 in K nach Definition der Charakteristik für alle k = 1, . . . , p − 1 und daraus folgt (x + y)p = xp + y p . Für den Fall n > 1 wende man n-mal z 7→ z p an. 2. Primkörper 193 2. Primkörper In diesem Abschnitt geben wir eine äquivalente Betrachtung der Charakteristik an. Dazu führen wir die Definition des Primkörpers eines Köpers K ein. Der Primkörper ist der kleinste Unterkörper von K: Def inition 15.4 (Primkörper). Sei K ein Körper. Dann heißt \ L P (K) = L ist Unterkörper von K der Primkörper von K. Dabei haben wir die — leicht überprüfbare — Eigenschaft verwendet, dass der Durchschnitt von Unterkörpern wieder ein Unterkörper ist. Satz 15.5. Sei K ein Körper. Dann gilt: a) char K = 0 genau dann, wenn P (K) ∼ = Q. b) char K = p 6= 0 genau dann, wenn P (K) ∼ = Zp . Beweis. Wir zeigen die vier Implikationen: (1) char K = 0 ⇒ P (K) ∼ =Q Der Körper P (K) enthält mit 1 auch alle Summen n · 1 sowie die multiplikativen Inversen (n · 1)−1 für n ∈ Z \ {0}. Folglich ist L := (m · 1)(n · 1)−1 m, n ∈ Z, n 6= 0 ⊆ P (K) Wir wissen bereits, dass der Homomorphismus ϕK :Z → = n·1 K mit ϕK (n) injektiv ist. Dann ist aber offensichtlich L ∼ = Q = ab a, b ∈ Z, b 6= 0 und damit L Körper. Folglich ist auch P (K) ⊆ L, da der Primkörper der kleinste Unterkörper von K ist, und somit P (K) = L ∼ = Q. ∼ (2) char K = p 6= 0 ⇒ P (K) = Zp Offensichtlich ist L := {n · 1 | n ∈ Z } = {n · 1 | n ∈ {0, 1, . . . , p − 1} } ∼ Zp . Wie im ersten und wegen der Homomorphieeigenschaft von ϕK gilt L = ∼ Fall folgt P (K) = L = Zp . (3) P (K) ∼ = Q ⇒ char K = 0 Angenommen, es wäre char K = p 6= 0. Dann wäre P (K) ∼ = Zp nach 2 und somit nicht isomorph zu Q. (4) P (K) ∼ = Zp ⇒ char K = p 6= 0 Folgt wie im vorigen Fall: Angenommen, es wäre char K = 0. Dann wäre P (K) ∼ = Q nach 1 und somit nicht isomorph zu Zp . Als einfache Folgerung erhalten wir, dass char L = char K für jeden Unterkörper L von K, da die Primkörper P (L), P (K) nach Definition eines Primkörpers identisch sind. Wir kommen damit zum ersten Teilresultat über endliche Körper: 194 15. Endliche Körper Satz 15.6. Sei K ein endlicher Körper. Dann gilt |K| = (char K)n = pn für eine Primzahl p und ein n ∈ N. Beweis. Wir betrachten K als Vektorraum über seinem Primkörper P (K): Die Addition zwischen Vektoren v, w ∈ K ist durch die Addition im Körper K definiert. Ebenso ist die Skalarmultiplikation λv für λ ∈ P (K) und v ∈ K durch die Multiplikation in K erklärt. Man überprüft leicht, dass die Vektorraumaxiome erfüllt sind, da (K, +) eine abelsche Gruppe ist und (λ + µ)v = λv + µv, λ(v + w) = λv + λw, (λµ)v = λ(µv) sowie 1 · v = v aus den Körperaxiomen folgen. Da der Vektorraum K endlich ist, gibt es eine (endliche) Basis b1 , . . . , bn ∈ K für ein n ∈ N. Jedes v ∈ K hat damit eine eindeutige Darstellung v= n X λ i bi , λ1 , . . . , λn ∈ P (K) i=1 Folglich hat K genau so viele Elemente, wie es Tupel (λ1 , . . . , λn ) mit λ1 , . . . , λn ∈ P (K) gibt. Da K endlich ist, ist P (K) ∼ = Zp für eine Primzahl p = char K, und daraus folgt die Behauptung. 3. Konstruktion endlicher Körper In diesem Abschnitt zeigen wir, wie man zu gegebener Primzahl p und gegebenem n ∈ N einen endlichen Körper mit pn Elementen konstruiert. Zur Erinnerung: Für einen Körper K ist K[X] der Ring der Polynome in X mit Koeffizienten aus K, die Elemente K werden als konstante Polynome in K[X] eingebettet. Analog zu Z haben wir bereits in Kapitel 4 die Restklassenkonstruktion von Polynomen im Ring K[X] kennengelernt. Zur Wiederholung betrachten wir ein Beispiel: Beispiel 15.7. Wir betrachten Z2 = {0, 1} und das Polynom p(X) = X 2 + X + 1 ∈ Z2 [X]. Wegen X 2 ≡ −X − 1 mod p(X) sind die Restklassen die Polynome mit Grad maximal 1. So ist beispielsweise X 3 ≡ X · X 2 ≡ X(−X − 1) ≡ −X 2 − X ≡ X + 1 − X ≡ 1 mod p(X) Für diesen Restklassenring schreiben wir: Z2 [X]/(p(X)) = {0, 1, X, X + 1}. Es gilt X(X + 1) ≡ X 2 + X ≡ −1 mod p(X) und da −1 = 1 in Z2 , sind X und X + 1 zueinander invers. Tatsächlich ist damit Z2 [X]/(p(X)) ein Körper mit 4 Elementen. Wir wissen, dass Zn = Z/nZ die Restklassen modulo n sind, die wir durch die Zahlen 0, 1, . . . , n−1 repräsentieren können. Im Fall K[X]/(p(X)) sind die Restklassen die Polynome mit Grad kleiner als deg p(X). Ferner ist K[X] wie Z ein Integritätsring und es exisitiert Division mit Rest. Wir können daher die Restklassenbildung in K[X] durch Vergleich zu Zn motivieren. Wir haben gezeigt, dass Zn genau dann ein Körper ist, wenn n ∈ N prim ist. Zur Erinnerung: 3. Konstruktion endlicher Körper 195 Eine Zahl n ∈ N \ {1} ist genau dann prim, wenn n|ab nur für n|a oder n|b möglich ist. Dabei wird die Zahl 1 als Spezialfall (sogenannte Einheit) per Definition ausgeschlossen. Die aus der Schulmathematik bekannte Eigenschaft, dass Primzahlen die Zahlen sind, die nur 1 und sich selbst als Teiler besitzen, heißt in der Algebra Irreduzibilität: Eine Zahl n ∈ N \ {1} heißt irreduzibel, wenn n = ab nur für a = 1 oder b = 1 möglich ist. Da in N die Primzahlen genau die irreduziblen Zahlen sind, sind in diesem Fall beide Definitionen äquivalent. Wir übertragen den Begriff der Irreduzibilität auf den Ring K[X]. Dabei spielen die Elemente K in K[X] die Rolle der Eins in N: Def inition 15.8 (Irreduzibles Polynom). Sei K ein Körper. Ein nicht-konstantes Polynom p(X) ∈ K[X] heißt irreduzibel über K, wenn p(X) = a(X)b(X) nur für a(X) ∈ K oder b(X) ∈ K möglich ist. Beispielsweise sind Polynome vom Grad 2 oder 3 genau dann irreduzibel über K, wenn sie keine Nullstelle in K besitzen (Übung). Für Polynome vom Grad 4 oder höher gilt dies im allgemeinen nicht, z.B. ist das Polynom X 4 + 2X + 1 = (X 2 + 1)2 über den reellen Zahlen R nicht irreduzibel, obwohl es keine reelle Nullstelle besitzt. Der Begriff eines Primpolynoms läßt sich auf offensichtliche Weise auf dem Ring K[X] definieren, und wie in N folgt, dass die Primpolynome in K[X] genau die irreduziblen Polynome sind. Analog zu Zp gilt: Fakt 15.9. Sei K ein Körper. Dann ist K[X]/(p(X)) genau dann ein Körper, wenn p(X) irreduzibel über K ist. Eine wichtige Eigenschaft dieses Körpers K[X]/(p(X)) ist, dass das Polynom p(X) darin die Nullstelle λ := X mod p(X) (Restklasse von X) besitzt, denn p(λ) ≡ p(X mod p(X)) ≡ p(X) ≡ 0 mod p(X) Beachte, dass wir bei Nullstellenbetrachtungen Werte in das Polynom einsetzen und das Polynom auswerten, während wir beispielsweise bei der Restklassenkonstruktion das Polynom als formales Objekt ansehen. Beispiel 15.10. Wir betrachten R[X]/(X 2 + 1) = {a + bX | a, b ∈ R }. Die Nullstelle X mod X 2 + 1 nennen wir in diesem Fall i, so dass i2 ≡ X 2 ≡ −1 mod X 2 + 1 Der Ring R[X]/(X 2 + 1) entspricht nämlich den komplexen Zahlen C, und wir haben die imaginäre Einheit als Nullstelle des irreduziblen Polynoms X 2 + 1 eingeführt. Die Polynommultiplikation (a + bX)(c + dX) ≡ ac + (ad + bc)X + bdX 2 ≡ (ac − bd) + (ad + bc)X mod X 2 + 1 entspricht (ebenso wie die Polynomaddition) der in Abschnitt 1 auf Seite 16 per Definition festgelegten Multiplikation (bzw. Addition) in den komplexen Zahlen (mit i statt X). 196 15. Endliche Körper Im Körper K[X]/(p(X)) hat das Polynom p(X) eine Nullstelle λ (mit Vielfachheit n). Wenn wir diese Nullstelle abspalten p(X) = (X − λ)n q(X), erhalten wir ein Polynom q(X) in diesem Körper, das wir in irreduzible Faktoren q1 (X), . . . , qm (X) zerlegen können. Für den Faktor q1 (X) bilden wir den Restklassenkörper, in dem q1 (X) und damit auch p(X) eine weitere Nulltelle hat. Wenn wir dieses Verfahren iterieren (und zwar maximal deg p(X)-mal), erhalten wir einen Körper, in dem p(X) vollständig in Linearfaktoren X − λi zerfällt. Dieser Körper ist bis auf Isomorphie eindeutig bestimmt und heißt Zerfällungskörper : Def inition 15.11 (Zerfällungskörper). Sei K ein Körper und p(X) ∈ K[X]. Der Zerfällungskörper von p(X) über K ist der kleinste Körper Z ⊇ K, in dem p(X) vollständig in Linearfaktoren zerfällt: p(X) = c · (X − λ1 ) · · · (X − λn ) ∈ Z[X] mit c ∈ K, λ1 , . . . , λn ∈ Z, n = deg p(X). Wir haben uns oben überlegt, dass jedes irreduzible Polynom einen Zerfällungskörper besitzt. Tatsächlich hätten wir bei der Konstruktion bereits mit einem nicht irreduziblen Polynom starten können, indem wir dieses Polynom zunächst in irreduzible Faktoren zerlegt hätten. Wir erhalten: Satz 15.12. Sei K ein Körper. Für jedes Polynom p(X) ∈ K[X] existiert der Zerfällungskörper. √ √ Beispielsweise ist Q( 2) = a + b 2 a, b ∈ Q der Zerfällungskörper des Poly√ √ noms X 2 − 2 = (X + 2)(X − 2). Wir kommen zur Konstruktion eines endlichen Körpers mit pn Elementen für gegebene p, n. Ausgehend von einem Körper mit Charakteristik p (beispielsweise Zp ) n konstruieren wir einen geeigneten Unterkörper des Zerfällungskörpers von X p − X: Satz 15.13. Sei K ein Körper mit char K = p 6= 0, n ∈ N und Z der Zerfällungskörpers n des Polynoms q(X) = X p − X ∈ K[X] über K. Dann ist n L = {a ∈ Z | q(a) = 0 } = a ∈ Z ap = a ein Unterkörper von Z mit pn Elementen. Beweis. Wir zeigen, dass L ein Unterkörper von Z ist. Wegen char Z = char K = p n ist die Frobenius-Abbildung σp,n mit σp,n (a) = ap ein Homomorphismus auf Z. Wir überlegen uns zunächst, dass mit b ∈ L auch −b ∈ L ist. Für p = 2 ist dies klar, da 1 + 1 = 0 = 1 − 1, d.h. −1 = 1 und −b = (−1)b = b. Sei p > 2 und damit pn ungerade. n n n Dann ist (−b)p = (−1)p bp = (−1)b = −b und damit −b ∈ L. Wir beweisen damit das Unterkörperkriterium, dass mit a, b auch a − b und ab−1 (für b 6= 0) in L liegen: n n n (a − b)p = ap + (−b)p = a − b n n n −1 (ab−1 )p = ap bp = ab−1 Offensichtlich ist 1 ∈ L. Daraus folgt nach Satz 2.6 auf Seite 19, dass L ein Unterkörper von Z ist. 3. Konstruktion endlicher Körper 197 Bleibt zu zeigen, dass L genau pn Elemente hat. Da das Polynom q(X) vom Grad im Integritätsbereich Z[X] maximal pn Nullstellen haben kann, folgt die obere Schranke |L| ≤ pn . Es genügt daher zu zeigen, dass die Nullstellen von q(X) alle verschieden sind. Dazu verwenden wir folgendes Fakt, dass wie hier nicht beweisen werden: pn Fakt 15.14. Seien g(X), h(X) ∈ K[X] teilerfremd in K[X], d.h. f (X)|g(X) und f (X)|h(X) ist nur für f (X) ∈ K möglich,1, dann sind g(X) und h(X) auch in Z[X] teilerfremd. Um dieses Fakt anzuwenden, führen wirPdie symbolische (oder P auch algebraische) n i 0 Ableitung eines Polynoms ein: Zu h(X) = i=0 hi X sei h (X) = ni=1 (i · 1)hi X i−1 . Es gilt die aus der Analysis bekannte Rechenregel (gh)0 (X) = g 0 (X)h(X)+g(X)h0 (X). Angenommen, q(X) hat eine mehrfache Nullstelle λ mit Vielfachheit m ≥ 2 in Z: q(X) = (X − λ)m r(X) Dann ist in Z[X] einerseits q 0 (X) = (m · 1)(X − λ)m−1 r(X) + (X − λ)m r0 (X), und in K[X] wegen char K = p andererseits n −1 q 0 (X) = (pn · 1)X p − 1 = −1. Insbesondere sind q(X) und q 0 (X) in K[X] teilerfremd (da nur konstante Polynome das Polynom q 0 (X) = −1 teilen), also auch in Z[X]. In Z[X] haben beide Polynome wegen m ≥ 2 allerdings den gemeinsamen Teiler X − λ, und wir erhalten einen Widerspruch. Folglich hat q(X) keine mehrfachen Nullstellen und es gilt |L| ≥ pn . n n Der Frobenius-Homomorphismus σp,n ist auf L bijektiv: Aus xp = y p erhalten wir n 1 = (xy −1 )p = xy −1 und damit x = y. Folglich ist σp,n auf L injektiv und — da injektive Abbildung zwischen endlichen Mengen gleicher Mächtigkeit stets bijektiv sind — sogar ein Automorphismus auf L. Ohne Beweis geben wir einige weitere Eigenschaften endlicher Körper an [FS78, W96]: Fakt 15.15. Sei K ein endlicher Körper mit pn Elementen, p prim, n ∈ N. Dann gilt a) Jeder Körper L mit pn Elementen ist isomorph zu K. b) Die Unterkörper von K sind (bis auf Isomorphie) genau die Körper mit pm Elementen für m|n. c) Es gilt P (K) ∼ = Zp und char K = p. 1Der Teilbarkeitsbegriff überträgt sich unmittelbar von Z auf Polynomringe: Ein Polynom a(X) teilt ein Polynom b(X), wenn bei Division mit Rest b(X) = q(X)a(X) + r(X) der Rest r(X) das Nullpolynom ist. 198 15. Endliche Körper 4. Struktur der multiplikativen Gruppe endlicher Körper In diesem Abschnitt betrachten wir die Struktur der multiplikativen Gruppe K∗ := K\{0} endlicher Körper K. Wir zeigen, dass diese Gruppe zyklisch ist, d.h. es gibt ein Gruppenelement, so dass die Potenzen dieses Elements bereits die gesamte Gruppe durchlaufen. Wir beginnen mit einem Beispiel: Beispiel 15.16. Wir betrachten den Körper F4 = Z2 [X]/(X 2 + X + 1) = {0, 1, X, X + 1}. Diesen Körper haben wir bereits in Beispiel 15.7 in Abschnitt 3 kennengelernt. Die Elemente X und X + 1 sind zueinander invers. Die multiplikative Gruppe F∗4 = {1, X, X + 1} besteht aus 3 Elementen. Die Ordnung eines Elements a einer endlichen Gruppe (G, ·) ist definiert durch: ordG a = min {n ∈ N | an = 1 } , wobei an das n-fache Produkt von a in G ist. In unserem Fall: ordF∗4 1 = 1, = 3, da X 2 ≡ −X − 1 ≡ X + 1 mod X 2 + X + 1 X 3 ≡ X · X 2 ≡ X(X + 1) ≡ 1 mod X 2 + X + 1 ordF∗4 X + 1 = 3, da (X + 1)2 ≡ X 2 + 2X + 1 ≡ X mod X 2 + X + 1 (X + 1)3 ≡ (X + 1)(X + 1)2 ≡ 1 mod X 2 + X + 1 ordF∗4 X Es gilt daher F∗4 = {X 0 , X 1 , X 2 } = {(X + 1)0 , (X + 1)1 , (X + 1)2 }. Allgemeiner nennt man eine Gruppe, die von einem Element erzeugt wird, zyklisch. Wir definieren zunächst die Ordnung eines Elementes formal: Def inition 15.17 (Ordnung eines Elementes). Für eine Gruppe (G, ·) heißt ( 0 an 6= 1 für alle n ∈ N ordG a = min {n ∈ N | an = 1 } sonst die Ordnung des Elementes a in G. Geht die Gruppe G aus dem Kontext hervor, schreiben wir abkürzend ord a statt ordG a. Def inition 15.18 (Zyklische Gruppe). Eine Gruppe (G, ·) heißt zyklisch, wenn es ein primitives (oder auch erzeugendes) Element g ∈ G mit hgi := {g 0 , g 1 , g 2 , g 3 , . . . } = G gibt. Das Element g nennt man auch Generator. Wir überlegen uns, dass für ein Element a einer zyklischen Gruppe die Elemente a0 , a1 , . . . , an−1 mit n = ord a verschieden sind. Angenomen, es wäre ai = aj für 0 ≤ i < j < n. Dann wäre aj−i = 1 für 1 ≤ j − i < n im Widerspruch zur Minimalität 4. Struktur der multiplikativen Gruppe endlicher Körper 199 von n. Insbesondere bedeutet dies, dass die Ordnung eines Elementes einer endlichen Gruppe höchstens die Anzahl der Elemente der Gruppe sein kann. Beispiel 15.19. Wir betrachten die multiplikative Gruppe Z∗5 := {1, 2, 3, 4} des endlichen Körpers Z5 . Diese ist eine zyklische Gruppe, die von 2 erzeugt wird: 20 = 1 mod 5 21 = 2 mod 5 22 = 4 mod 5 23 = 2 · 22 = 3 mod 5. Es gilt h2i = Z∗5 . Auch 3 ist ein Generator der Gruppe Z∗5 , 4 ist hingegen kein primitives Element der Gruppe. Unser Ziel ist es, zu zeigen, dass die multiplikative Gruppe K∗ endlicher Körper K stets zyklisch ist. Dazu benötigen wir folgende Fakten über die Ordnung von Elementen: Fakt 15.20. Sei G eine multiplikative Gruppe. Dann gilt für a, b ∈ G: • Wenn m| ord a, dann ist ord am = ord a m . • Wenn ord a, ord b teilerfremd sind, dann ist ord(ab) = ord a · ord b. Den ersten Punkt des Faktes können wir mit unserem Wissen bereits beweisen: a m n ord a = 1 und somit ord am ≤ Zur Abkürzung sei n = ord m . Offensichtlich ist (a ) = a n. Angenommen, es wäre t = ord am < n. Dann wäre (am )t = amt = 1 und folglich ord a ≤ mt < ord a, Widerspruch. Auf den Beweis der zweiten Eigenschaft verzichten wir hier. Das folgendes Lemma bereitet die zentrale Aussage dieses Abschnitts vor: Lemma 15.21. Sei G eine endliche Gruppe und m = max {ord a | a ∈ G }. Dann gilt bm = 1 für alle b ∈ G. Beweis. Sei a ein Element mit ord a = m. Ferner sei b ein beliebiges Element mit ord b = n. Wir betrachten die (eindeutige) Primfaktorzerlegung von m und n: m= k Y i pm i , n= i=1 k Y pni i , mi , n i ≥ 0 i=1 wobei p1 , . . . , pk prim sind. Setze r= k Y i pm i , i=1 mi <ni s= k Y pni i i=1 mi ≥ni so dass wegen r| ord a und s| ord b nach Fakt 15.20 die Ordnungen k Y m i ord a = = pm i , r r i=1 mi ≥ni k Y n ord b = = pni i s s i=1 mi <ni 200 15. Endliche Körper teilerfremd sind. Es folgt: r s r s ord(a b ) = ord a · ord b = k Y max{mi ,ni } pi i=1 Da m maximal ist, ergibt sich ni ≤ mi für alle i = 1, . . . , k, denn sonst wäre ar bs ein Element mit Ordnung größer als m. Wir erhalten n|m und somit bm = (bn )m/n = 1. Satz 15.22. Sei K ein endlicher Körper. Dann ist die multiplikative Gruppe (K∗ , ·) zyklisch. Beweis. Sei m = max {ord a | a ∈ K∗ }. Nach Lemma 15.21 ist damit bm = 1 für alle b ∈ K∗ , d.h. das Polynom X m − 1 hat mindestens |K∗ | Nullstelllen und daher ist m ≥ |K∗ |. Andererseits ist m ≤ |K∗ |, da alle Elemente a0 , a1 , . . . , am−1 für ein a mit ord a = m verschieden sind. Folglich gibt es ein g mit Ordnung ord g = m = |K∗ |, so dass die (verschiedenen) Elemente g 0 , g 1 , . . . , g m−1 die gesamte Gruppe K∗ durchlaufen. Kapitel 16 Gittertheorie Wir haben Gitter bereits in Kapitel 7 auf Seite 76 definiert. In diesem Kapitel beschäftigen wir uns intensiver mit Gittern und lernen Reduktionsbegriffe kennen. 1. Gitter Wir betrachten den Rn mit dem kanonischen Skalarprodukt h·, ·i : Rn × Rn → R mit p hu, vi = uT v und der euklidischen Norm kuk = hu, ui. Def inition 16.1 (Gitter). Zu linear unabhängigen Vektoren b1 , . . . , bm ∈ Rn heißt (m ) X L(b1 , . . . , bm ) := ti b i t i ∈ Z ⊂ R n i=1 das Gitter mit Basis b1 , . . . , bm und Rang m. Beispiel 16.2. Zu A ∈ Mm,n (R) ist Lös(A, 0) ∩ Zn = {x ∈ Zn | Ax = 0 } ein Gitter vom Rang n − rang A. Ein Gitter (Lattice) L(b1 , . . . , bm ) ⊆ span(b1 , . . . , bm ) ist das diskrete Analogon zu R-Vektorräumen. Ein Gitter L ⊆ Rn ist eine additive Untergruppe des Rn . Was bedeutet, dass L diskret ist? Lemma 16.3. Sei L ⊆ Rn eine additive Untergruppe. Dann sind folgende Aussagen äquivalent: a) L hat keinen Häufungspunkt im Rn . b) Für alle r > 0 ist die Menge {x ∈ L : kxk ≤ r} endlich. Eine additive Untergruppe L ⊆ Rn mit diesen Eigenschaften heißt diskret. Gitter sind genau die additiven Untergruppen des Rn : Satz 16.4. Sei L ⊆ Rn eine additive Untergruppe, dann sind folgende Aussagen äquivalent: a) L ist ein Gitter. 201 202 16. Gittertheorie b) L ist diskret. Beweis. Für die Implikation a)⇒b)“ sei L := L(b1 , . . . , bm ) ein Gitter mit Basis ” b1 , . . . , bm . Sei ϕ : Rm → span(b1 , . . . , bm ) der Vektorraum-Isomorphismus mit m X ti b i . ϕ(t1 , . . . , tm ) := i=1 ϕ(Zm ) Zm Es gilt = L. Offenbar ist L ⊆ span(L) ebenfalls diskret ist. ⊆ Rm diskret und weil ϕ−1 stetig ist, folgt, dass Umgekehrt sei L ⊆ Rn eine diskrete, additive Untergruppe. Setze m := dim span(L). Wir konstruieren eine Basis b1 , . . . , bn durch Induktion über m: • Verankerung für m = 1: Wähle einen kürzesten Vektor b1 ∈ L \ {0}. Dann gilt L = L(b1 ). Denn angenommen, es gäbe einen Vektor b ∈ L \ L(b1 ). Wegen span(b) = span(b1 ) gibt es ein t ∈ R \ Z mit b = tb1 . Dann ist auch b0 := b − bte · b1 ∈ L, wobei bte := dt − 21 e die nächste, ganze Zahl zu t bezeichnet. Es gilt b0 = t0 b1 6= 0 mit 0 < |t0 | ≤ 21 , also 0 b = |t0 | · kb1 k ≤ 1 kb1 k , 2 ein Widerspruch zur Wahl von b1 mit minimaler Länge. • Induktionsschluß von m − 1 auf m: Wegen m = dim span(L) gibt es im Raum span(L) lineare unabhängige Vektoren v1 , . . . , vm . Nach Induktionsvoraussetzung ist L0 := L ∩ span(v, . . . , vm−1 ) 0 ein Gitter Pmvom Rang m − 1. Sei b1 , . . . , bm−1 eine Basis des Gitters L . Wähle bm := i=1 ti vi ∈ L mit minimalem tm > 0. Weil L diskret ist, gibt es ein solches tm . Es folgt L = L(b1 , . . . , bm ). Def inition 16.5 (Basis, Gram-Matrix, Gitterdeterminante). Sei L := L(b1 , . . . , bm ) ⊆ Rn ein Gitter. Dann ist B := b1 · · · bm ∈ Mn,m (R) eine Basismatrix zu L und wir schreiben L = L(B). Die m × m-Matrix B T B heißt 1 Gram-Matrix von B und det L := det(B T B) 2 die Determimante von L. Wir zeigen, dass Rang und Determinante von L von der Wahl der Basis unabhängig sind: Lemma 16.6. Sei B eine Basismatrix zum Gitter L ⊆ Rn vom Rang m und B 0 eine Basismatrix zum Gitter L0 ⊆ Rn vom Rang m0 . Dann sind folgende Aussagen äquivalent: a) Beide Gitter sind gleich: L = L0 . b) Es ist m = m0 und es existiert eine ganzzahlige, unimodulare Matrix T ∈ GLm (Z) = {U ∈ Mm,m (Z) | det U = ±1 } mit B0 = BT . 1. Gitter 203 Beweis. Betrachten wir die Implikation a)⇒b)“. Wegen L = L0 gilt m = m0 . Aus ” L0 ⊆ L folgt m0 ≤ m. Insbesondere ist jeder Spaltenvektoren von B 0 ein Gittervektor von L, d.h. eine ganzzahlige Linearkombination der Spalten von B. Es existert eine ganzzahlige Matrix T ∈ Mm,m (Z) mit B 0 = BT : m = m0 = rang B 0 = rang(BT ) ≤ T ≤ m. Also gilt rang T = m und die ganzzahlige Matrix T ist invertierbar: B 0 T −1 = B. Aus Symmetriegründen (d.h. L0 ⊇ L) ist T −1 eindeutig bestimmt und ganzzahlig, somit | det T | = 1. Die Rückrichtung ist offensichtlich. Nach Lemma 16.6 haben Basismatrizen eines Gitters denselben Rang. Betrachten wir die Determinante: Lemma 16.7. Sei L(B) = L(B 0 ). Dann gilt det B T B = det B 0 T B 0 . Beweis. Gemäß Lemma 16.6 existiert ein T ∈ GLm (Z) mit B 0 = BT und | det T | = 1. Aus T det B 0 B = det(BT )T (BT ) = det B T B · (det T )2 = det B T B | {z } =1 folgt die Behauptung. Abbildung 1. Grundmasche P(b1 , b2 ) von b1 , b2 b2 pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppp ppppppppppppppppppppppppppppppp p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppp p p p p p p P(b p p p p p p p p 1p p p,p pbp p 2p p )p p p p p p p p ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppp ppppppppppppppppppppppppppppppp p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppppp ppppp ppppp ppppp ppppp ppppp pp pp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pp pp pp pp pp b 1 0 Def inition 16.8 (Grundmasche). Zur Gitterbasis b1 , . . . , bm ⊆ Rn heißt (m ) X P(b1 , . . . , bm ) := ti b i 0 ≤ t 1 , . . . , t n < 1 i=1 Grundmasche zu b1 , . . . , bm . Das Volumen der Grundmasche entspricht der Determinante des erzeugten Gitters: Lemma 16.9. Für jedes Gitter L := L(B) ⊆ Rn vom Rang m gilt det L = volm (P(B)). 204 16. Gittertheorie Beweis. Im Fall m = n, d.h. das Gitter ist volldimensional, gilt: 1 1 det L = (det B T B) 2 = (det B · det B) 2 = det B = volm (P(B)). Im Fall m < n gibt es eine isometrische Abbildung T : span(L) → Rm , die Skalarprodukt und Volumen erhält: det L = det T (L) = volm (T (P(B))) = volm (P(B)). Jeder (geordneten) Gitterbasis b1 , . . . , bm ∈ Rn ordnet man ein Orthogonalsystem bb1 , . . . , bbm ∈ Rn gemäß Schmidt’schem Orthogonalisierungsverfahren zu: bbi := bi − i−1 X hbi , bbj i kbbj k2 j=1 | {z } ·bbj für i = 1, 2, . . . , m. =:µi,j Mit den Gram-Schmidt-Koeffizienten µi,j gilt: bi = bbi + i−1 X j=1 µi,jbbj . für i = 1, 2, . . . , m. (41) Der Vektor bbi ist die Projektion πi (bi ) von bi auf den Raum span(b1 , . . . , bi−1 )⊥ . Man definiert µi,j := 0 für j > 0 und µi,i := 1, um die Gleichungen (41) in Matrixschreibweise darzustellen: 1 µ2,1 · · · µm−1,1 µm,1 µm−1,2 µm,2 0 1 . . . . b b . . . . b 1 · · · b m = b1 · · · b m · . . . . . 0 0 1 µm,m−1 0 ··· 0 0 1 | {z } T = µi,j 1≤i,j≤m Ein Ziel der Gitterreduktion ist das Finden eines kürzesten nicht-trivalen (d.h. ungleich der Nullvektor) Gittervektors in L. Dessen Länge heißt das erste sukzessive Minimum λ1 (L) von L: Def inition 16.10 (Sukzessive Minima). Zu einem Gitter L ⊆ Rn vom Rang m heißen die Werte Es existieren linear unabhängige λi (L) := min r > 0 v1 , . . . , vi ∈ L mit max kvi k ≤ r. für i = 1, 2, . . . , m sukzessive Minima von L. Es gilt λ1 (L) ≤ λ2 (L) ≤ · · · ≤ λm (L). 2. Gitterreduktion 205 2. Gitterreduktion Ziel der Gitterreduktion ist es, eine reduzierte Basis für ein gegebenes Gitter zu finden. Die Vektoren der Basis sollen (weitgehend) • orthogonal sein und • die Länge der Basisvektoren den sukzessiven Minima entsprechen. Wir analysieren zuerst den Fall von Gitter mit Rang 2. Betrachte Abbildung 2: Liegt der Vektor b2 im markierten Bereich, also − 12 ≤ µ2,1 ≤ + 12 , ist die Basis b1 , b2 reduziert: Def inition 16.11 (Reduzierte Basis). Eine (geordnete) Basis b1 , b2 ∈ Rn heißt reduziert, wenn a) kb1 k ≤ kb2 k. b) |µ2,1 | ≤ 21 . Abbildung 2. Reduzierte Basis b1 , b2 |µ2,1 | ≤ 1 2 ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp b2 ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp pp pp pp p p p p p p p p p p p p p pp pp pp pp ppp ppp ppp ppp ppp ppp ppp ppp ppp p p pp pp ppp ppp ppp ppp pp pp p p r - b1 0 pppp pppp ppp ppp pp pp p p p p p pp pp ppp ppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pppp pppp pppp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp ppppppppppppppppppppppppppppppppppppppp Algorithmus 3 transformiert die gegebene Basis b1 , b2 in eine reduzierte Basis desselben Gitters. Reduzierte Basen realisieren die beiden sukzessiven Minima des Gitters: Fakt 16.12. Sei b1 , b2 eine reduzierte Basis eines Gitters L. Dann gilt λ1 (L) = kb1 k und λ2 (L) = kb2 k. Ein Reduktionsbegriff für Gitter vom Rang m ≥ 2 stammt von A.K. Lenstra, H.W. Lenstra und L. Lovász [LLL82]: 206 16. Gittertheorie Abbildung 3. Reduktions-Algorithmus Eingabe: Basis b1 , b2 ∈ Rn (1) b2 := b2 − bµ2,1 e · b1 . (2) IF kb2 k < kb1 k THEN swap(b1 ,b2 ); GOTO 1. Def inition 16.13 (L3 -reduzierte Basis). Eine (geordnete) Basis b1 , . . . , bm ∈ Rn heißt L3 -reduziert mit Parameter δ ∈ ( 14 , 1], wenn (L1) |µi,j | ≤ 12 für 1 ≤ j < i ≤ m. (L2) δ · kbbk−1 k2 ≤ kbbk k2 + µ2k,k−1 · kbbk−1 k2 für k = 2, 3, . . . , m. Für eine L3 -reduzierte Basis b1 , . . . , bm gilt kbbk−1 k2 ≤ α · kbbk k2 (42) mit α := (δ − 41 )−1 , denn wegen Eigenschaft L1 ist µ2k,k−1 ≤ 41 und Ungleichung (42) folgt aus Eigenschaft L2. In [LLL82] wurden die Parameter δ = 43 und α = 2 benutzt. Man kann eine gebenene Basis effizient in eine L3 -reduzierte desselben Gitters überführen [LLL82]: Fakt 16.14. Der Reduktions-Algorithmus von Lenstra, Lenstra und Lovász transformiert eine gegebene Gitterbasis b1 , . . . , bm ∈ Zn in eine L3 -reduzierte zum Parameter δ < 1 in O(m3 n log B) arithmetischen Schritten auf ganzen Zahlen der Bitlänge O(n log B) mit B := maxi kbi k2 . Bemerkung 16.15. Die Laufzeit des Reduktions-Algorithmus’ und die auftretenden Bitlängen sind ebenfalls polynomiell beschänkt, wenn die Basis aus rationalen Vektoren besteht. Mit Hilfe des L3 -Reduktions-Algorithmus’ können wir den kürzesten, nicht-trivialen Gittervektor bis auf einen exponentiellen Faktor approximieren: Satz 16.16. Sei b1 , . . . , bm ∈ Rn eine L3 -reduzierte Basis des Gitters L. Dann gilt mit α := δ−1 1 : 4 kb1 k2 ≤ αm−1 · λ1 (L). Pm Beweis. Sei v = i=1 ti bi ∈ L ein Gittervektor mit kvk = λ1 (L). O.B.d.A. sei tm 6= 0, sonst erniedrige m. Es gilt: T v = b1 · · · bm · t = bb1 · · · bbm µi,j 1≤i,j≤m · t. Wir erhalten kvk2 ≤ t2m · kbbm k2 ≤ kbbm k2 . Andererseits gilt wegen Ungleichung (42): kb1 k2 = kbb1 k2 ≤ α · kbb2 k2 ≤ · · · ≤ αm−1 · kbbm k2 Somit ist kb1 k2 ≤ αm−1 · kvk2 = αm−1 λ1 (L)2 . Wir zitieren weitere Eigenschaften L3 -reduzierter Basen [LLL82]: 2. Gitterreduktion 207 Fakt 16.17. Sei b1 , . . . , bm ∈ Rn eine L3 -reduzierte Basis des Gitters L zum Parameter δ. Dann gilt mit α := δ−1 1 : 4 2 a) α1−j ≤ kbbj k kbj k2 ≤ ≤ αm−1 für j = 1, . . . , m. λj (L)2 λj (L)2 n−1 2 b) kb1 k2 ≤ α 2 (det L) m . m m Q c) kbi k2 ≤ α( 2 ) (det L)2 . i=1 In den beiden folgenden Abschnitt stellen wir Anwendungen der Gitterreduktion vor. Simultane Diophantische Approximation. Beim Problem der simultanen Diophantischen Approximation sucht man zu gegebenen α1 , . . . , αn ∈ Q und ∈ (0, 1) Zahlen p1 , . . . , pn , q ∈ Z mit αi − pi ≤ i=1,. . . ,n q q und 1 ≤ q ≤ −n . Ein klassischer Satz von Hermite besagt, dass eine Lösung existiert. Wir zeigen, dass man mit dem L3 -Algorithmus eine Lösung berechnen kann, wird die Restriktion bezüglich q abgeschwächt zu: 1≤q≤2 n(n+1) 4 −n =: δ. Wir bestimmen eine L3 -reduzierte Basis b1 , . . . , bn+1 des Gitters L ⊆ Qn , welches von folgender Basismatrix erzeugt wird: 1 0 · · · 0 0 −α1 0 1 0 0 −α2 .. .. .. .. . . . . B := (43) ∈ Mn+1,n+1 (Q). 0 0 1 0 −αn−1 0 0 · · · 0 1 −αn 0 0 ··· 0 0 /δ Offenbar ist det L = /δ. Für jede L3 -reduzierte Basis b1 , . . . , bn+1 können wir die Länge des ersten Basisvektors wie folgt abschätzen: 2 2 n n n n n+1 = 2 2 · 2− 2 2 = 2 . (44) kb1 k2 ≤ 2 2 · (det L) n+1 = 2 2 · δ Sei (p1 , . . . , pn , q) ∈ Zn+1 der Koeffizientenvektor von b1 bezüglich der Basismatrix B aus (43): p1 − qα1 .. . b1 = pn − qαn q/δ O.B.d.A. sei q ≥ 0, sonst betrachte −b1 . Es gilt in Verbindung mit Abschätzung (44) n X q 2 2 kb1 k2 = (pi − αi q)2 + 2 ≤ 2 , δ i=1 208 16. Gittertheorie so dass jede Komponente absolut durch beschränkt ist: |pi − αi q| ≤ für i = 1, . . . , n q/δ ≤ . Es ist q > 0, da für q = 0 wegen b1 6= 0 mindestens ein ganzzahliges pi 6= 0 ist und die Abschätzung |pi | ≤ < 1 nicht erfüllt wäre. Wir dividieren durch q ≥ 1 pi δ bzw. multiplizieren die letzte Ungleichung mit und erhalten αi − q ≤ q mit 1 ≤ q ≤ δ. Satz 16.18. Es gibt einen Polynomialzeit-Algorithmus, der zu α1 , . . . , αn ∈ Q und ∈ (0, 1) Zahlen p1 , . . . , pn , q ∈ Z mit αi − pi ≤ i=1,. . . ,n q q und 1 ≤ q ≤ 2 n(n+1) 4 −n liefert. Rucksack-Problem. Beim Rucksack-Problem (auch Subsetsum-Problem genannt) sind zu a1 , . . . , an ∈ N und s ∈ N ein Vektor e ∈ {0, 1}n mit n X ei ai = s i=1 zu bestimmen oder zu zeigen, dass ein solcher nicht existiert. Zwar können wir effizient überprüfen, ob ein Vektor e eine Lösung darstellt, vermutlich gibt es aber keinen Polynomialzeit-Algorithmus, der eine Lösung bestimmt: Fakt 16.19 (Cook, Levin). Die Sprache ( ) n X (n, a1 , . . . , an , s) ∈ Nn+2 ∃e ∈ {0, 1}n : ei ai = s i=1 ist N P-vollständig. Gibt es ein Polynomialzeit-Entscheidungsverfahren für die Rucksack-Sprache, so kann jede nicht-deterministische Turingmaschine in Polynomialzeit deterministisch simuliert werden. Zu einem gegebenen Rucksack-Problem (n, a1 , . . . , an , s) ist das inverse Problem erklärt durch n, a1 , . . . , an , s := n X i=1 ai − s . Eine Lösung e des Ausgangsproblems liefert unmittelbar eine Lösung e des inversen Problems und umgekehrt: n X i=1 ei ai = s ⇐⇒ n X i=1 (1 − ei ) ai = s. | {z } =ei 2. Gitterreduktion 209 Fakt 16.20 (Lagarias, Odlyzko 1985). Für fast alle (a1 , . . . , an ) ∈ [1, A]n mit Dichte n d := log max < 0, 6463 löst der kürzeste Gittervektor des Gitters erzeugt von der i ai 2 Basismatrix 1 0 ··· 0 0 .. . 1 0 q 0 1 .. . . b1 · · · bn+1 = , N > .. .. 2 n, . 0 0 ··· 1 0 N a1 N a2 · · · N an N s entweder das Rucksack-Problem oder das inverse Problem. Einer Lösung e = (e1 , . . . , en ) des Rucksack-Problems ordnen wir folgenden Gittervektor zu e1 e1 n .. .. X . . v(e) := ei bi − bn−1 = = . en i=1 Pn en N 0 i=1 ei ai − s) p p Es gilt kvk ≤ n/2 oder kvk ≤ n/2 für den Vektor assoziert mit der Lösung e des inversen Problems, da eine der beiden Lösungvektoren maximal 12 n Eins-Einträge hat. Coster, Joux, LaMacchina, Odlyzko, Schnorr und Stern [CJLOSS92] haben das Resultat durch Modifikation der Gitterbasis zu 1 1 0 ··· 0 2 .. 1 0 . 1 2 .. .. , . b1 · · · bn+1 = . . . . 1 0 0 ··· 1 2 N a1 N a2 · · · N an N s verbessert (CJLOSS-Gitter). Der Lösungsvektor v(e) := n X e1 − 21 .. = . 1 en − 2 0 ei bi − bn−1 i=1 hat die Länge v u n uX 2 √ ei − 12 = 12 n, kvk = t i=1 sofern die Lösung e jeweils 21 n-viele Koordinaten ei = 0 und ei = 1 hat. Damit ist die p Länge des Lösungsvektors um den Faktor 1/2 kleiner als beim Gitter von Lagarias und Odlyzko, während die Gitterdeterminanten beider Gitter von derselben Größenordnung sind. 210 16. Gittertheorie Fakt 16.21. Für fast alle (a1 , . . . , an ) ∈ [1, A]n mit Dichte d < 0, 9408 löst der kürzeste Gittervektor des CJLOSS-Gitters entweder das Rucksack-Problem oder das inverse Problem. Anhang A Grundbegriffe 1. Notationen Wir wiederholen die aus der Schulmathematik bekannten Notationen für Zahlmengen. Es bezeichne • N = {1, 2, 3, . . . } die Menge der natürlichen Zahlen, • N0 = {0, 1, 2, . . . } die Menge der natürlichen Zahlen mit 0, • Z = {0, ±1, ±2, . . . } die Menge der ganzen Zahlen, • Q = ab a, b ∈ Z, b 6= 0 die Menge der rationalen Zahlen, und • R die Menge der reellen Zahlen. Manche Autoren verwenden das Symbol N für die Menge N0 = {0, 1, 2, . . . }. Als Abkürzung für Summen und Produkte reeller Zahlen x1 , . . . , xn schreiben wir n n X Y xi = x1 + x2 + · · · + xn und xi = x1 · x2 · · · xn i=1 i=1 Gegebenenfalls schränken wir den Laufindex zusätzlich ein, wie beispielsweise in der folgenden Formel, die gleichzeitig eine doppelte Summation zeigt: n X m n X X xi,j = (xi,1 + · · · + xi,i−1 + xi,i+1 + · · · + xi,m ) i=1 j=1 j6=i i=1 P Q Die leere“ Summe 0i=1 xi setzen wir auf 0. Das leere“ Produkt 0i=1 sei 1. ” ” Neben den lateinischen Buchstaben A, . . . , Z, a, . . . , z werden in der Mathematik häufig die griechischen Klein- und Großbuchstaben verwendet. Dabei sind die in der Tabelle nicht aufgeführten griechischen Großbuchstaben mit den entsprechenden lateinischen Großbuchstaben identisch. 2. Logik Die klassische Aussagenlogik geht von zwei Wahrheitswerten 1 (wahr) und 0 (falsch), aussagenlogischen Variablen und Funktionen ∨ (oder), ∧ (und), ¬ (nicht) aus. Eine 211 212 A. Grundbegriffe Großbuchstabe Γ ∆ Θ Λ Kleinbuchstabe α β γ δ , ε ζ η θ, ϑ ι κ λ µ ν Name Alpha Beta Gamma Delta Epsilon Zeta Eta Theta Iota Kappa Lambda Mu Nu Großbuchstabe Ξ Π Σ Υ Φ Ψ Ω Kleinbuchstabe o ξ o π, $ ρ, % σ, ς τ υ φ, ϕ χ ψ ω Name O Xi O Pi Rho Sigma Tau Upsilon Phi Chi Psi Omega aussagenlogische Variable a kann die Werte 0 und 1 annehmen und die Funktionen der Variablen a, b definiert man durch den Verlauf der Wahrheitswerte: a 0 0 1 1 b 0 1 0 1 ¬a a ∧ b a ∨ b 1 0 0 1 0 1 0 0 1 0 1 1 Allgemeiner kann man komplexere Formeln durch Verschachtelung aufbauen, beispielsweise für zwei Formeln ¬a und b ∨ c die Formel (¬a) ∧ (b ∨ c) bilden. Zur Vereinfachung der Klammerschreibweise legen wir folgende Bindungsprioritäten fest: ¬ vor ∧ vor ∨. Dadurch können wir Klammern entfallen lassen und erhalten beispielsweise aus (¬a) ∧ (b ∨ c) die Vereinfachung ¬a ∧ (b ∨ c). Dies entspricht der bekannten Vereinfachung der Klammerschreibweise bei Multiplikation und Addition für reelle Zahlen. Belegt man die Variablen in einer aussagenlogischen Formel, kann man den Wahrheitswert der Formel berechnen, indem man die Werte von innen nach außen“ be” rechnet. Für zwei aussagenlogischen Formeln A und B (über den gleichen Variablen) schreiben wir A = B, wenn die Wahrheitswerte von A und B unter allen Belegungen der Variablen identisch sind. Neben den offensichtlichen Eigenschaften für die Funktionen ∧, ∨ und ¬ wie beispielsweise A ∧ B = B ∧ A, A ∨ B = B ∨ A und ¬¬A = A gelten die beiden folgenden wichtigen Regeln: • Regel von DeMorgan: ¬(A ∧ B) = ¬A ∨ ¬B und ¬(A ∨ B) = ¬A ∧ ¬B • Distributivität: (A ∨ B) ∧ C = (A ∧ C) ∨ (B ∧ C) und (A ∧ B) ∨ C = (A ∨ C) ∧ (B ∨ C) Man verifiziere diese Regeln durch den Werteverlauf. Eine Implikation oder Folgerung A ⇒ B ( wenn A, dann B“) ist definiert durch ” A ⇒ B = ¬A ∨ B 2. Logik 213 Wir sagen, dass die Aussage A die Aussage B impliziert bzw. dass A hinreichend für B ist. Umgekehrt sagen wir, dass B aus A folgt bzw. dass B notwendig für A ist. Wir nennen A Voraussetzung oder Annahme und B Folgerung. Eine Äquivalenz A ⇔ B ( A genau dann, wenn B“) ist definiert durch ” A ⇔ B = (A ⇒ B) ∧ (B ⇒ A) Wir sagen, dass A und B äquivalent sind bzw. das A notwendig und hinreichend für B (und umgekehrt) ist. Bezüglich der Bindung gelte ¬ vor ∧ vor ∨ vor ⇒ vor ⇔. Implikationen A ⇒ B sind stets nur in eine Richtung zu lesen“. Die Umkehrung ” gilt im allgemeinen nicht, wie das folgende Beispiel zeigt: Eine natürliche Zahl größer als 5 ist auch größer als 3. Um die Implikation besser hervorzuheben, formulieren wir die Aussage (und auch die folgenden Beispiele) in eine explizite wenn. . . dann“-Aussage um. ” Wenn eine natürliche Zahl größer als 5 ist, dann ist sie größer als 3. Die Umkehrung der Aussage ist: Wenn eine natürliche Zahl größer als 3 ist, dann ist sie größer als 5. Offensichtlich ist die Zahl 4 ein Gegenbeispiel. Wir betrachten einige elementaren Eigenschaften von Implikationen, die sich unmittelbar aus der Charakterisierung durch die logischen Verknüpfungen ergeben. Diese Eigenschaften bilden die Grundlage für das folgende Kapitel über Beweistechniken. • Kontraposition: A ⇒ B = ¬B ⇒ ¬A • Transitivität: (A ⇒ B) ∧ (B ⇒ C) ist hinreichend für A ⇒ C • Kontradiktion: A ⇒ B = A ∧ ¬B ⇒ 0 Die Transitivität besagt, dass man aus A ⇒ B und B ⇒ C die Aussage A ⇒ C schliessen kann. Möchte man beispielsweise die Äquivalenz der Aussagen A, B und C beweisen, so genügt es wegen der Transitivität, A ⇒ B, B ⇒ C und C ⇒ A zu zeigen (Ringschluß). Die Kontradiktion besagt, dass die Hinzunahme von ¬B zur Voraussetzung A auf einen Widerspruch führt. Die Prädikatenlogik führt zusätzlich den Allquantor ∀ und den Existenzquantor ∃ ein. Die Interpretation der Formeln ∀x : A bzw. ∃x : B ist, dass die aussagenlogische Formel A für alle x gilt bzw. dass es ein x gibt, so dass die aussagenlogische Formel B gilt; die Formeln A bzw. B hängen dabei im allgemeinen von x ab. Das Universum“, ” aus dem x stammt, geht in der Regel aus dem Kontext hervor. Tatsächlich ist die Wahl dieses Universums“ entscheidend für die Gültigkeit der Formeln, wie wir an ” einem Beispiel sehen werden. Der Begriff der Gültigkeit ist bei prädikatenlogischen Formeln komplizierter zu formalisieren als bei aussagenlogischen Formeln. Wir verzichten daher hier auf eine Definition und beschränken uns auf die oben angegebene Interpretation. Prädikatenlogische Formeln können wie aussagenlogische Formeln verschachtelt werden, so dass beispielsweise Formeln der Form ∀x : (A ⇒ ∃y : B) möglich sind. 214 A. Grundbegriffe Dabei nehmen wir an, dass Quantoren stärker binden als aussagenlogische Funktionen. Tritt der gleiche Quantorentyp hintereinander auf, so faßt man diese Quantoren im allgemeinen zusammen, z.B. ∀x : ∀y : A zu ∀x, y : A. Für die Quantoren gelten folgende Regeln: ¬ ∀x : A = ∃x : ¬A und ¬ ∃x : A = ∀x : ¬A. Beachte, dass ¬ ∀x : A = ¬ (∀x : A) nach Festlegung der Bindungprioritäten. Bei Verschachtelung erhält man beispielsweise die Äquivalenz von ¬ ∃x : ∀y : A und ∀x : ∃y : ¬A. Wir betrachten ein Beispiel. Sei < das bekannte Kleiner-Als“-Prädikat über den ” reellen bzw. natürlichen Zahlen: a < c ist genau dann wahr, wenn es eine positive Zahl b ∈ R mit a + b = c gibt. Gegeben sei die Formel ∀r, t : r < t ⇒ ∃s : (r < s ∧ s < t) , die ausdrückt, dass zwischen zwei verschiedenen Zahlen r, t stets eine weitere Zahl s liegt. Betrachten wir r, s, t über den reellen Zahlen, gilt diese Formel, denn s = 1 2 (r + t) ∈ R erfüllt für alle r, t mit r < t die Bedingung. Über den natürlichen Zahlen gilt die Aussage nicht, denn zwischen r und t = r + 1 liegt keine weitere natürliche Zahl. 3. Beweistechniken Um mathematische Aussagen von der Form A ⇒ B zu beweisen, gibt es elementare Vorgehensweisen, von denen wir hier einige wichtige vorstellen. Direkte Beweise. Bei einem direktem Beweis wird die Aussage A ⇒ B zerlegt in Aussagen der Form A ⇒ A1 , A1 ⇒ A2 , . . ., An−1 ⇒ An , An ⇒ B. Aus der Transitivität folgt dann die Behauptung A ⇒ B. Die einzelnen Implikationen können dann mit einer der in diesem Kapitel aufgeführten Beweistechniken gezeigt werden bzw. sind meistens einfach zu sehen. Setzt man beispielsweise als bekannt voraus, dass das Produkt und die Summe zweier natürlicher Zahlen positiv ist, so läßt sich die Aussage Wenn m > n für natürliche Zahlen m, n gilt, dann ist m2 > n2 . durch einen direkten Beweis zeigen: Aus m > n folgt m = n + k für eine natürliche Zahl k. Mit dem Binomischen Lehrsatz erhalten wir m2 = (n+k)2 = n2 +2nk+k 2 . Die letzten beiden Summanden sind das Produkt natürlicher Zahlen und damit ebenso wie die Summe 2nk + k 2 positiv. Wir schließen, dass m2 = n2 + 2nk + k 2 > n2 . Obwohl wir die Aussage als wenn. . . dann“-Aussage formuliert haben, ist sie im” plizit eine prädikatenlogische Formel: über den natürlichen Zahlen gilt ∀m, n : (m > n ⇒ m2 > n2 ). Die angegebene Aussage entspricht der sprachlichen Übersetzung dieser Formel, da wir in der Annahme beliebige natürliche Zahlen m, n mit m > n voraussetzen. 3. Beweistechniken 215 Vollständige Induktion. Die vollständige Induktion erlaubt es, Eigenschaften bezüglich der natürlichen Zahlen zu beweisen: Wenn für eine Zahl m die Eigenschaft E(m) gilt und für alle n ≥ m folgt E(n + 1) aus E(n), dann gilt E(n) für alle n ≥ m. Wir betrachten ein Beispiel: Wenn n ≥ 3 für n ∈ N ist, dann gilt 2n > 2n. Wir beweisen diese Aussage durch vollständige Induktion: In der Induktionsverankerung zeigen wir, dass die Formel für n = 3 gilt. Dies folgt durch unmittelbares nachrechnen. Im Induktionsschritt zeigen wir, dass aus der Induktionsvoraussetzung 2n > 2n auch 2n+1 > 2(n + 1) folgt. Durch die Induktionsvoraussetzung erhalten wir 2n+1 = 2 · 2n = 2n + 2n > 2n + 2n Andererseits gilt offensichtlich 2n ≥ 2 für alle n ≥ 1 und damit auch für n ≥ 3. Es folgt 2n+1 > 2n + 2n ≥ 2n + 2 = 2(n + 1) und daraus die Behauptung. Folgt die Eigenschaft E(n+1) nicht nur aus E(n), sondern beispielsweise aus E(n) und E(n − 1), so ist die Induktionsverankerung für die Werte E(m) und E(m + 1) zu zeigen. Die vollständige Induktion besagt in diesem Fall: Wenn E(m), E(m + 1) gelten und für alle n ≥ m + 1 aus E(n) und E(n − 1) auch E(n + 1) folgt, dann gilt E(n) für alle n ≥ m. Beweis durch Kontraposition. Beim Beweis durch Kontraposition zeigt man die Aussage ¬B ⇒ ¬A, um A ⇒ B zu beweisen. Diese Vorgehensweise ist meistens einfacher als ein direkter Beweis. Wir demonstrieren die Beweistechnik am Beispiel der Primzahlen. Aus der Schulmathematik ist bekannt, dass eine natürliche Zahl prim ist, wenn sie nur durch sich selbst und durch 1 teilbar ist, wobei die 1 als Primzahl ausgeschlossen wird. Die ersten fünf Primzahlen lauten daher 2, 3, 5, 7, 11. Allgemein gilt: Wenn p ∈ N prim ist und p > 2, dann ist p ungerade. Der Beweis erfolgt durch Kontraposition, d.h. wir zeigen, dass eine gerade Zahl p nicht prim ist oder p ≤ 2 gilt. Beachte, dass wir hier die DeMorgansche Regel auf ¬(p prim ∧ p > 2)“ angewendet haben. Wenn aber p gerade ist, dann ist p = 2 ” oder p ≥ 4 echt durch 2 teilbar und damit nicht prim. Beweise durch Widerspruch fomuliert man häufig als Beweis durch Widerspruch: Beweis durch Widerspruch. Beim Beweis durch Widerspruch (auch Beweis durch Kontradiktion) beweist man A ⇒ B, indem man zeigt, dass A ∧ ¬B auf einen Widerspruch führt. Beispiel: Wenn p ∈ N prim ist und p > 2, dann ist p ungerade. Nehmen wir also an, dass p prim, p > 2 und p gerade ist. Dann ist allerdings die Primzahl p > 2 echt durch 2 teilbar — Widerspruch zur Eigenschaft von Primzahlen. 216 A. Grundbegriffe 4. Mengen, Relationen und Funktionen Zur Vereinfachung verwenden wir hier die naive“ Mengenlehre nach Cantor, die be” sagt, dass jede Eigenschaft E eine Menge ME definiert: die Menge ME = {x | E(x) } ist die Sammlung“ von Objekten x, für die E(x) erfüllt ist. Obwohl diese Anschau” ung auf inhaltliche Widersprüche führt (Russelsche Antinomie1), genügt sie für eine elementare Einführung der Begriffe. Wir führen zunächst einige Notationen ein. Seien X, Y Mengen. Ist x ein Element der Menge X, dann schreiben wir x ∈ X. Wir sagen auch, dass x in X liegt bzw. das x in X enthalten ist. Die Menge X ist eine Teilmenge von Y (X ⊆ Y ), wenn jedes x ∈ X auch Element von Y ist. Ein Element x ist genau dann in der Vereinigung X ∪ Y von X und Y , wenn es in mindestens einer der beiden Mengen X und Y liegt. Das Element x ist genau dann im Durchschnitt X ∩ Y von X und Y enthalten , wenn es sowohl in X als auch in Y liegt. Die Differenz X \ Y von X und Y enthält alle Elemente x ∈ X, die nicht in Y liegen. Beachte, dass Y Elemente enthalten kann, die nicht in X sind (und damit natürlich auch nicht in X \ Y ). Gilt Y ⊆ X, so schreibt man auch X − Y statt X \ Y . Für eine endliche Menge X heißt die Anzahl |X| der Elemente in X die Mächtigkeit von X. Für unendliche Mengen ist die Definition der Mächtigkeit aufwendiger und wir verzichten hier darauf. Mit ∅ bezeichnen wir die leere Menge, die kein Element enthält. Vereinigung und Durchschnitt zweier Mengen kann man verallgemeinern: S T Für eine nicht-leere Menge I und Mengen Xi für i ∈ I bezeichnet i∈I Xi bzw. i∈I Xi die Menge, die genau die x enthält, für die ein i ∈ I mit x ∈ Xi existiert bzw. für die x ∈ Xi für alle i ∈ I. Die Menge I nennen wir in diesem Fall Indexmenge. In der Schule verwendet man — bewußt oder unbewußt — zwei Eigenschaften von Funktionen: Für eine Funktion f : X → Y mit Definitionsbereich X ⊆ R und Wertebrereich Y ⊆ R gibt es für alle x ∈ X mindestens einen Wert y ∈ Y mit f (x) = y (so dass f auf X definiert ist) und andererseits höchstens einen Wert y ∈ Y mit f (x) = y (so dass jedes x auf maximal einen Wert abgebildet wird). Wir formalisieren diese Eigenschaften, indem wir den Begriff des kartesischen Produkts und der Relation einführen. Für zwei Mengen X, Y ist X × Y das Kartesische Produkt, das die Menge bezeichnet, die genau die geordneten Paare (x, y) mit x ∈ X und y ∈ Y enthält. Das geordnete Paar (x, y) heißt auch Tupel. Allgemeiner kann man das Kartesische Produkt für n Mengen X1 , . . . , Xn definieren. Ein Element (x1 , . . . , xn ) dieses Produkts heißt dann n-Tupel. Falls X1 = X2 = · · · = Xn schreibt man abkürzend X1n statt X1 × · · · × Xn . Eine n-stellige Relation R über X1 × · · · × Xn ist eine Teilmenge von X1 ×· · ·×Xn . Im Fall n = 2, d.h. R ⊆ X ×Y , spricht man von einer binären Relation. Wir definieren eine Funktion f : X → Y als spezielle binäre Relation f ⊆ X × Y (und verwenden daher in dieser Definition die Schreibweise (x, y) ∈ f statt f (x) = y), mit 1Betrachte die Menge R aller Mengen, die sich nicht selbst enthalten. Enthält R sich selbst, dann ist R nicht in R nach Definition. Enthält andererseits R nicht sich selbst, so ist R in R nach Definition enthalten. Wir erhalten somit den Widerspruch, dass die Menge R sich genau dann enthält, wenn sie sich nicht enthält. 4. Mengen, Relationen und Funktionen 217 der Eigenschaft, dass für jedes x ∈ X genau ein y ∈ Y mit (x, y) ∈ f existiert. Wir nennen eine Funktion auch Abbildung. Für eine Relation R über X ×Y heißt X der Argumentbereich, Y der Wertebereich, die Menge der x ∈ X, für die ein y ∈ Y mit (x, y) ∈ R existiert, der Definitionsbereich, die Menge der y, für die ein x mit (x, y) ∈ R existiert, der Bildbereich. Diese Definitionen gelten damit auch für Funktionen, wobei dort Argument- und Definitionsbereich gleich sind und man mit f (X) oder bild f das Bild von X unter f bezeichnet. Das Urbild f −1 (y) eines Wertes y ∈ Y unter einer Funktion f : X → Y ist die Menge aller x ∈ X, für die (x, y) ∈ f . Wir sagen, dass x ein Urbild von y unter f ist, wenn x ∈ f −1 (y). Eine Funktion f : X → Y heißt surjektiv, wenn es für alle y ∈ Y ein x ∈ X mit f (x) = y gibt. Die Funktion f heißt injektiv, wenn für alle y ∈ Y höchstens ein x ∈ X mit f (x) = y existiert. Sie heißt bijektiv, wenn sie injektiv und surjektiv ist. Für eine injektive Funktion f : X → Y bezeichnet man mit f −1 : f (X) → X auch die Umkehrfunktion von f , d.h. die Funktion mit f −1 (f (x)) = f (f −1 (x)) = x für alle x ∈ X. Beachte, dass die Injektivität garantiert, dass es sich dabei tatsächlich um eine Funktion handelt, da es zu jedem y maximal ein x mit f −1 (y) = x gibt. Die Umkehrfunktion von f an einer festen Stelle y und das Urbild von y unter f werden mit dem gleichen Symbol f −1 (y) bezeichnet. Obwohl Verwechselungen prinzipiell möglich sind, geht im allgemeinen aus dem Zusammenhang hervor, welches Objekt gemeint ist; bei einer injektiven Funtion f ist das Urbild f −1 (y) für ein y ∈ f (X) insbesondere genau die einelementige Menge, deren Element der Wert der Umkehrfunktion f −1 an der Stelle y ist. Zur Veranschaulichung der Begriffe betrachten wir Funktionen f, g, h : N → N über den natürlichen Zahlen. Die Funktion f sei definiert durch f (n) = 2n Dann ist f injektiv, da f (m) = 2m 6= 2n = f (n) für m 6= n. Die Funktion ist allerdings nicht surjektiv, da die ungeraden Zahlen keine Urbilder unter f besitzen. Eine surjektive, aber nicht injektive Funktion ist ( n falls n gerade 2 g(n) = n+1 falls n ungerade 2 Offensichtlich bildet g jede ungerade Zahl und die darauffolgende gerade Zahl auf den gleichen Wert ab. Daher ist g nicht injektiv. Andererseits ist g surjektiv, da für jedes m der Wert 2m ein Urbild ist. Ein triviales Beispiel einer bijektiven Funktion über den natürlichen Zahlen ist die Identitätsfunktion id(n) = n. Wir betrachten als weiteres Beispiel folgende Funktion: ( n − 1 falls n gerade h(n) = n + 1 falls n ungerade Die Funktion h vertauscht jede ungerade Zahl mit ihrem geraden Nachfolger und ist daher bijektiv. Ferner ist h die Umkehrfunktion zu sich selbst. Anhang B Übungsaufgaben 1. Übungsblatt 1 Aufgabe 1.1. Löse das lineare Gleichungssystem zu folgender erweiterter Matrix über K = R und K = {0, 1, 2} = Z3 : 2 1 1 2 0 2 1 0 1 0 ∈ M4,5 (K) (A, b) = 0 1 2 0 1 1 1 2 1 2 Aufgabe 1.2. Sei K beliebiger Körper, (A, b) ∈ M2,3 (K) und det(A) := a11 a22 − a12 a21 ∈ K sei die Determinante von A. Zeige: Ax = b ist genau dann für alle b ∈ K2 lösbar, wenn det(A) 6= 0. Hinweis: Zeilen- und Spaltenoperationen ändern |det(A)| nicht. Aufgabe 1.3. Sei K beliebiger Körper und UDn ⊂ Mn,n (K) die Menge der unteren Dreiecksmatrizen, d.h. der Matrizen A = (aij )1≤i,j≤n mit aij = 0 für i < j. Zeige: A, B ∈ UDn ⇒ A · B ∈ UDn . Aufgabe 1.4. Sei A = (ai,j )1≤i,j≤n ∈ UDn . Zeige: Zu A gibt es genau dann ein multiplikatives Inverses A−1 ∈ UDn , wenn a11 a22 · · · ann 6= 0. Für A−1 gelte nach Definition AA−1 = A−1 A = In . Hinweis: Bestimme A−1 durch Rückwärtsauflösen eines lineare Gleichungssystem in Treppenform. 2. Übungsblatt 2 Aufgabe 2.1. Sei K Körper. Die Operationen + (Addition) und · (Multiplikation) auf Mn,n (K) sind durch die Körperoperationen von K erklärt: X n (aij ) + (bij ) = (aij + bij ), (aiν ) · (bνj ) = aiν bνj ν=1 Zeige: 219 220 B. Übungsaufgaben a) Die Multiplikation auf Mn,n (K) ist assoziativ und distributiv. b) Die Multiplikation auf Mn,n (K) für n ≥ 2 ist nicht kommutativ. Aufgabe 2.2. Invertiere die Matrix 1 2 A= 0 1 1 1 1 1 2 0 2 2 0 1 0 1 über dem Körper K = {0, 1, 2} mit folgendem Verfahren: Überführe A durch Multiplikation mit Elementarmatrizen von rechts (bzw. links) in I4 . Wende dieselben Transformationsschritte auf I4 an. Zeige: Das Verfahren liefert für beliebige Körper K und A ∈ Mn,n (K) die inverse Matrix A−1 . Aufgabe 2.3. Zu A = (aij ) ∈ Mm,n (K) ist AT := (aji ) ∈ Mn,m (K) die transponierte Matrix. Zeige: a) (AB)T = B T AT für A ∈ Mm,n (K), B ∈ Mn,k (K). b) P P T = In gilt für alle Permutationsmatrizen P ∈ Mn,n (K). Hinweis: P = Vi1 ,j1 · · · Vik ,jk mit Vertauschungsmatrizen Viν ,jν . Aufgabe 2.4. Sei K Körper und A ∈ Mnn (K). Zeige: Es gibt Permutationsmatrizen P1 , P2 und T ∈ UDn , B ∈ ODn mit P1 A P2 = T B. Hinweis: Ziehe die Zeilen und Spaltenvertauschungen im Gauß-Verfahren vor. 3. Übungsblatt 3 Aufgabe 3.1. Sei C= a −b b a a, b ∈ R ⊂ M2,2 (R). Zeige: C ist Körper, C ∼ = C. Es gilt a −b ` 0 cos ϕ − sin ϕ = , b a 0 ` sin ϕ cos ϕ wobei die Abbildung R2 → R≥0 × [0, 2π), (a, b) 7→ (`, ϕ) a −b bijektiv ist. Die Abbildung x 7→ x sind die Dreh-Streckungen der reellen b a Ebene, erläutere dies. Aufgabe 3.2. Sei K Körper, G ⊂ Kn Gerade und H ⊂ Kn Hyperebene. Zeige: G, H sind entweder parallel oder sie haben genau einen Punkt gemeinsam. Der Satz gilt nicht, wenn man den Körper K durch einen Ring ersetzt, weshalb? 4. Übungsblatt 4 221 Aufgabe 3.3. Sei V ein K-Vektorraum und x1 , . . . , xk ∈ V . Zeige, dass aspan(x1 , . . . , xk ) := x1 + k X (xi − x1 )K i=2 der kleinste affine Unterraum ist, der x1 , . . . , xk enthält. Hinweis: aspan(x1 , x2 ) = x1 +(x2 −x1 )K ist die Gerade durch x1 , x2 . Mit x1 , . . . , xk ∈ A enthält jeder affine Unterraum A auch aspan(x1 , . . . , xk ). Aufgabe 3.4. Zeige, dass die folgenden Aussagen gelten, wenn man Köraum ersetzt durch einen der Begriffe Körper, Schiefkörper, Ring, Gruppe, Halbgruppe, Vektorraum, affiner Raum. Sei Y ein Köraum. T a) Sind Yi ⊆ Y für i ∈ I Köraume, so auch Yi . i∈I b) Zu X ⊆ Y gibt es einen kleinsten Köraum hXi mit X ⊆ hXi. Weshalb läßt man zu, dass affine Räume leer sind, aber Vektorräume nicht? Hinweis: Weise Eigenschaften nach, wie Assoziativität, Kommutativität, Existenz des Inversen usw. 4. Übungsblatt 4 Aufgabe 4.1. Löse über dem Körper Z5 = {0, 1, 2, 3, 4} das lineare Gleichungssystem Ax = b mit 2 1 3 4 2 . (A | b) = 3 4 1 2 3 Konstruiere eine Basis von Lös(A, 0). Erläutere das Lösungsverfahren. Aufgabe 4.2 (2 zusätzliche Punkte). Sei A ∈ Mm,n (K), K Körper. Zeige: Es gibt Permutationsmatrizen P, P 0 und T ∈ UDm , T 0 ∈ ODn sowie eine Diagonalmatrix D ∈ Mm,n (K) mit P AP 0 = T DT 0 . Dabei gelte für D = (dij ), dass d11 6= 0, . . . , drr 6= 0 und dij = 0 sonst. Ferner sind die Diagonalelemente von T , T 0 alle 1. Erläutere zunächst, dass man nach Übungsblatt 2, Aufgabe 4, erreichen kann, dass P AP 0 = T B für eine Matrix B in Treppenform mit r Stufen. Aufgabe 4.3. Sei G kommutative Gruppe und H ⊆ G Untergruppe. Die Menge G/H = {aH | a ∈ G } besteht aus den Nebenklassen von H. Zeige: G/H ist Gruppe mit der Multiplikation (aH)(bH) = (ab)H. Zeige zunächst, dass die Multiplikation wohldefiniert ist, d.h. unabhängig von der Wahl der Repräsentanten. Aufgabe 4.4 (2 zusätzliche Punkte). Sei C der Körper der komplexen Zahlen. Zeige: a −b H= a, b ∈ C ⊂ M2,2 (C) ist Schiefkörper. b̄ ā 222 B. Übungsaufgaben Nach Aufgabe 1.2 ist die Matrix genau dann invertierbar, wenn ihre Determinante aā + bb̄ ungleich Null ist. Zeige, dass die Determinante genau dann null ist, wenn a = b = 0. 5. Übungsblatt 5 Aufgabe 5.1. Sei 2 0 −2 −4 4 4 4 1 3 2 2 5 5 , , , , , , 4 ⊂ R4 . X := 0 7 7 0 6 6 5 −1 0 1 −2 −2 −2 −3 Konstruiere eine Basis B ⊂ X von span(X ). Beschreibe das Verfahren. Aufgabe 5.2. Sei K ein Körper, V1 , V2 Vektorräume über K und ψ : V1 → V2 ein Isomorphismus. Zeige: a) Die inverse Abbildung ψ −1 : V2 → V1 ist ebenfalls ein Isomorphismus. Hinweis: Es gilt x = y ⇐⇒ ψ(x) = ψ(y), sowie ψ(ψ −1 (x)) = x. b) Für jede Basis b1 , . . . , bn von V1 gilt, dass ψ(b1 ), . . . , ψ(bn ) eine Basis von V2 ist. Hinweis: ψ(x) = 0 ⇐⇒ x = 0. Folgere, dass die Polynome 1, X, . . . , X n eine Basis des Vektorraums K[X]n bilden. Aufgabe 5.3. Sei A = (aij ) ∈ Mm,n (K). Zeige: Das Gauß’sche Eliminationsverfahren angewandt auf (A | b) benötigt keine Zeilenvertauschung, wenn (ai1 , . . . , aij ) ∈ Kj i = 1, . . . , j linear unabhängig ist für j = 1, . . . , n. Gilt auch die Umkehrung? Aufgabe 5.4. Seien x1 , . . . , xn ∈ Kn linear unabhängig über dem Körper K. Zeige: Es gibt genau eine Hyperebene H ⊂ Kn mit x1 , . . . , xn ∈ H. 6. Übungsblatt 6 Aufgabe 6.1. Konstruiere die Hyperebene H ⊂ Z57 durch die Punkte (1, 2, 3, 4, 5), (2, 3, 4, 5, 1), (3, 4, 5, 1, 2), (4, 5, 1, 2, 3), (5, 1, 2, 3, 4). Beschreibe das Verfahren. Aufgabe 6.2. Seien A, B Matrizen über einem Körper K. Zeige: .. A . 0 a) rang . . . . . . . . = rang(A) + rang(B) . 0 .. B b) max(rang(A), rang(B)) ≤ rang(A | B) ≤ rang(A) + rang(B). Aufgabe 6.3 (2 zusätzliche Punkte). Beweise Satz 3.20 durch Induktion über n: Je n linear unabhängige Vektoren T a1 , . . . , an a1 .. Hinweis: Transformiere A = . in T AT 0 = aTn n ∈ K a11 0 bildeneine Basis des Kn . 0 . . . . . mit invertierbaren .. 0 . A 8. Übungsblatt 8 223 Matrizen T ∈ UDn , T 0 ∈ ODn . Wende die Induktionsannahme auf A0 an. Weshalb kann man O.B.d.A. annehmen, dass a11 6= 0 ? Aufgabe 6.4. Sei K Körper und a1 , . . . , an ∈ K paarweise verschieden. Zeige: Die Vandermonde-Matrix 1 1 ··· 1 a1 a2 · · · an Vn (a1 , . . . , an ) := .. .. .. . . . n−1 n−1 n−1 a1 a2 · · · an hat Rang n. Hinweis: Beweis durch Induktion über n. 7. Übungsblatt 7 Aufgabe 7.1. Konstruiere eine Basis des Lösungsraums zum linearen Gleichungssystem 6 X (1) ai 2i = 0 , i=0 6 X (2) ai 3i = 0 i=0 in den Unbestimmten a0 , . . . , a6 über Z11 . Ergänze die Basis jeweils zu Basen der Lösungsräume der LGS’e (1) und (2). Aufgabe 7.2. Seien b1 , . . . , bm ∈ Kn , K endlicher Körper und dim span(b1 , . . . , bm−2 ) = dim span(b1 , . . . , bm ) = m − 2. Zeige: a) Es gibt genau eine Darstellung bm−1 = b) Es gibt genau |K| Darstellungen bm = m−2 P λ i bi . i=1 m−1 P λ i bi . i=1 Aufgabe 7.3. Sei K Körper, a1 , . . . , an ∈ K paarweise verschieden und b1 , . . . , bn ∈ P i ∈ K[X] mit p(a ) = b für p x K. Zeige: Es gibt genau ein Polynom p(x) = n−1 i i i i=0 i = 1, . . . , n. Hinweis: Schreibe p(ai ) = bi , i = 1, . . . , n, als lineares Gleichungssystem in p0 , . . . , pn−1 und zeige, dass dieses eindeutig lösbar ist. Aufgabe 7.4. Zeige: Das Gauß-Verfahren zu (A, b) kommt genau dann ohne Zeilenund Spaltenvertauschungen aus, wenn a11 · · · a1i .. = i für i = 1, . . . , rang(A) . rang ... . ai1 · · · aii 8. Übungsblatt 8 Aufgabe 8.1. Sei f : U → V Homomorphismus von (endlich dimensionalen) Vektorräumen und U, V zwei K-Vektorräume. Zeige: a) dim ker f + dim bild f = dim U , 224 B. Übungsaufgaben b) Ein surjektives f ist genau dann ein Isomorphismus, wenn dim ker f = 0. Aufgabe 8.2. Seien U, V zwei K-Vektorräume und f : U → V ein VektorraumHomomorphismus. f werde bezüglich der Basen a1 , . . . , am vonPU und b1 , . . . , bn von V dargestellt durch die Matrix (fij )T ∈ Mn,m (K) mit f (ai ) = nj=1 fij bj . Zeige: rang(fij ) = dim f (U ). Dies rechtfertigt folgende Definition: dim f (U ) heißt der Rang von f . Aufgabe 8.3. Sei A ∈ Mk,m (K), B ∈ Mm,n (K). Zeige: rang(AB) ≤ min(rang(A), rang(B)). Aufgabe 8.4. Seien A, B ∈ Mm,n (K). Zeige: |rang(A + B) − rang(A)| ≤ rang(B) Hinweis: Reduziere auf den Fall, dass B eine Diagonalmatrix ist. 9. Übungsblatt 9 Aufgabe 9.1. Die Kodeworte (0, 0, 1, 1, 1, 1, 0), (0, 1, 1, 0, 0, 1, 1), (1, 0, 0, 0, 1, 1, 1) erzeugen einen Code C ⊂ F72 . Konstruiere zu C und C ⊥ eine Generator- und eine PCH-Matrix in kanonischer Form. Zusatz (2 Punkte): Bestimme d(C), d(C ⊥ ). Aufgabe 9.2. Der [n, k]-Code C ⊂ Kn habe die Generatormatrix G ∈ Mk,n (K) und die PCH-Matrix H ∈ Mn−k,n (K). Zeige: a) Ist G von der Form G = [Ik , A] mit A ∈ Mk,n−k (K), dann ist [−AT , In−k ] eine PCH-Matrix zu C. b) Ist H von der Form [B, In−k ] mit B ∈ Mn−k,k (K), dann ist [Ik , −B T ] eine Generator-Matrix von C. Es sei K endlicher Körper, |K| = q, Kn sei die Nachrichtenmenge. Wir identifizieren n P mi xi−1 ∈ K[x]. die Nachricht m = (m1 , . . . , mn ) ∈ Kn mit dem Polynom m(x) = i=1 Sei K = {α1 , ..., αq }. Es gelte n ≤ t ≤ q. Aufgabe 9.3. Betrachte den linearen Code C = (m(α1 ), . . . , m(αt )) ∈ Kt m ∈ Kn . Zeige: C hat die Distanz d(C) = t − n + 1. Hinweis: Benutze Aufgabe 7.3. Warum nennt man C Interpolationscode? Aufgabe 9.4. Eine Nachricht m = (m1 , . . . , mn ) ∈ Kn ist derart in m0i ∈ K2 für i = 1, . . . , t aufzuteilen mit n ≤ t ≤ q, dass man m aus beliebigen n Teilen m0i rekonstruieren kann. Setze hierzu m0i := (αi , m(αi )) ∈ K2 für i = 1, . . . , t. Gib ein Verfahren zur Rekonstruktion von m aus m0i1 , . . . , m0in an. (Benutze Aufgabe 3, Blatt 7.) 11. Übungsblatt 11 225 10. Übungsblatt 10 Aufgabe 10.1. Sei C ⊂ Kn ein [n, k]-Code mit PCH-Matrix H ∈ Mn−k,n (K). Zeige: d(C) ≥ t + 1 ⇐⇒ je t Spalten von H sind linear unabhängig über K. Aufgabe 10.2. Sei C ⊂ Kn ein linearer [n, k]-Code über dem Körper K. Zeige die Singleton-Schranke: d(C) ≤ 1 + n − k. Wenn d(C) = 1+n−k ist, heißt C separabler Maximum-Distanz-Code (MDS-Code). Hinweis: Benutze Aufgabe 10.1. Aufgabe 10.3. Die PCH-Matrix des binären 1-fehlerkorrigierenden Hamming-Codes C3 ⊂ F72 sei 0 0 0 1 1 1 1 H3 = 0 1 1 0 0 1 1 . 1 0 1 0 1 0 1 Gib ein Dekodierverfahren an, das einen Fehler korrigiert, d.h. beschreibe einen Algorithmus zu einer Abbildung dec : F72 → C3 , so dass nach Möglichkeit d(dec(c̃), c̃) ≤ 1 gilt. Hinweis: Fasse die Spalten von H3 als Binärzahlen auf. Aufgabe 10.4. Sei K ein Körper, U1 , . . . , Un und ⊕ni=1 Ui := {(u1 , ..., ut ) | ui ∈ Ui , i = 1, ..., n } P K-Vektorräume endlicher Dimension. Zeige: dim (⊕ni=1 Ui ) = ni=1 dim Ui . Es wird nicht vorausgesetzt, dass die Ui Untervektorräume eines gemeinsamen Vektorraums sind. 11. Übungsblatt 11 Aufgabe 11.1. Sei K Körper und a1 , . . . , an ∈ K. Beweise für die VandermondeMatrix: 1 1 ··· 1 a1 a2 an Y det Vn (a1 , . . . , an ) = det .. (ai − aj ) . .. .. = . . . i>j · · · ann−1 an−1 an−1 2 1 Hinweis: Beweis durch Induktion über n. Subtrahiere a1 · Zeilei−1 von Zeilei . Aufgabe 11.2. Sei LA : Rn → Rn , LA (x) = Ax, die lineare Abbildung zu A ∈ Mn,n (R). Ferner sei P = P (b1 , . . . , bn ) ⊂ Rn ein Parallelflach. Zeige: vol LA (P ) = |det A| · vol P. Hinweis: Benutze die Multiplikativität der Determinante. t Aufgabe 11.3. Es seien U1 , ..., Ut und ⊕ Ui := {(u1 , ..., ut ) | ui ∈ Ui } K-Vektorräui=1 me. Zeige: Genau dann ist U ∼ = ⊕t Ui , wenn es Monomorphismen hi : Ui → U für i=1 226 B. Übungsaufgaben i = 1, . . . , t gibt, so dass jedes u ∈ U eindeutig zerlegbar ist als u = ui ∈ Ui . Pt i=1 hi (ui ) mit Zusatz (2 Punkte): Zeige die Äquivalenz für Ringe und additive Gruppen anstelle von Vektorräumen. Aufgabe 11.4 (2 zusätzliche Punkte). Sei n Zahlen q1 , q2 . Ferner seien α1 , α2 ∈ Zn gegeben ( 1 αi mod qj = 0 = q1 q2 Produkt zweier teilerfremder mit i=j i 6= j. Zeige: Zn ∼ = Zq1 × Zq2 . Hinweis: Benutze die Äquivalenz von Aufgabe 11.3 für Ringe und gib entsprechende Monomorphismen hi : Zqi → Zn , i = 1, 2 an. Zu zeigen ist die eindeutige Zerlegbarkeit u = h1 (u1 ) + h2 (u2 ) von u ∈ Zn . 12. Übungsblatt 12 Aufgabe 12.1 (2 Punkte). Vergleiche die Eigenschaften (D1), (D2) einer Determinantenfunktion und (D3’) : rang(A) < n =⇒ det A = 0, (D5) : Linearität in jeder Zeile. Zeige: (D2), (D3’), (D5) =⇒ (D1). Aufgabe 12.2. Es seien b1 , b2 , . . . , bn ∈ Rn linear unabhängig. Zeige, dass man das Orthogonalsystem b∗1 , b∗2 , . . . , b∗n ∈ Rn wie folgt erhält: P (b∗j )T bi ∗ b∗1 := b1 und rekursiv für i = 2, ..., n: b∗i := bi − i−1 j=1 µi,j bj mit µi,j := kb∗ k2 . j Zu zeigen: b∗i ∈ span(b1 , . . . , bi−1 )⊥ und bi − b∗i ∈ span(b1 , ..., bi ). Aufgabe 12.3. Zeige mit den Bezeichnungen von Aufgabe 2: a) [b1 , ..., bn ] = [b∗1 , ..., b∗n ] [µi,j ]T . b) µi,j = 0 für i < j und µi,i = 1 für i = 1, . . . , n. c) b∗i ⊥ b∗j für i 6= j. Aufgabe 12.4. Sei σ ∈ Sn und τ eine Nachbartransposition. Zeige, dass für die Anzahl der Fehlstände f (τ σ) = f (σ) ± 1 gilt. Aufgabe 12.5. Zeige, dass für σ ∈ Sn folgende Aussagen äquivalent sind: a) f (σ) ist gerade. b) Sind τ1 , τ2 , . . . , τn Nachbartranspositionen mit σ = τ1 τ2 · · · τn , so ist n gerade. c) σ ist das Produkt einer geraden Anzahl von Nachbartranspositionen. Hinweis: Benutze Aufgabe 12.4. Zusatz (2 Punkte): Zeige, dass die Äquivalenzen auch gelten, wenn man in b) beliebige Transpositionen τ1 , ..., τn zuläßt. 15. Übungsblatt 15 227 13. Übungsblatt 13 Aufgabe 13.1. Sei Z = {x ∈ Rn | Ax ≥ b } mit A ∈ Rm×n und b ∈ Rm . Zeige: Zu y ∈ Z sind folgende Aussagen äquivalent: a) A enthält n linear unabhängige Zeilen Ai mit Ai y = bi , b) y ist eine Ecke von Z. Aufgabe 13.2. Beweise Satz 12.16 und Satz 12.17 aus der Vorlesung: a) Jedes Polyeder P ⊂ Rn ist disjunkte Vereinigung von endlich vielen Simplizes. b) Jedes Polyeder im Rn ist Durchschnitt von endlich vielen Halbräumen. Aufgabe 13.3. Zeige: a) Für beliebige Mengen C1 , . . . , Cm ⊆ Rn gilt: ! ! m m [ [ kon kon(Ci ) = kon Ci . i=1 i=1 Rn b) Sei K ⊆ konvexe Hülle endlich vieler Punkte. Jeder Punkt p ∈ K ist Konvexkombination von n + 1 der gegebenen Punkte. 14. Übungsblatt 14 aff Aufgabe 14.1. Sei K = K 0 mit der affinen Bijektion φ. Zeige: a) K konvex ⇒ K 0 konvex. b) φ(E(K)) = E(φ(K)). Aufgabe 14.2. Transformiere das allgemeine LP-Problem mit x, c, ai , ai ∈ Rn min cT x mit aTi x = bi für i ∈ M ai x ≥ bi für i ∈ M xj ≥ 0 für j ∈ N (xj mit j ∈ N sind freie Variable) in die kanonische Form. Zeige, dass die Zulässigkeitsbereiche bei der Transformation affin isomorph bleiben. Gib entsprechende affine Bijektionen an. Aufgabe 14.3. Transformiere das allgemeine LP-Problem von Aufgabe 14.2 in die Standardform. Zeige, dass die Zulässigkeitsbereiche bei der Transformation affin isomorph bleiben. Gib entsprechende affine Bijektionen an. 15. Übungsblatt 15 Aufgabe 15.1. Sei M ⊂ Rn ,M 6= ∅. Zeige: k ∈ N, λi ∈ R, Pk Pk a) aff(M ) = . i=1 λi pi pi ∈ M, i=1 λi = 1 o nP k b) cone(M ) = λ p k ∈ N, λ ∈ R , p ∈ M . i i i ≥0 i i=1 228 B. Übungsaufgaben Aufgabe 15.2. Sei P ⊆ Rn ein Polyhedron mit E(P ) 6= ∅ und f : Rn → R linear mit inf x∈P f (x) > −∞. Zeige: p ∈ E(P ) ist Minimalstelle von f gdw. es keine Nachbarecke q zu p gibt mit f (q) < f (p) (q ist Nachbarecke zu p, wenn [p, q] Kante von P ist). Beachte auch Sonderfälle, wie E(P ) = {p}. Aufgabe 15.3. Zeige: a) Sind Ci für i ∈ I endlich viele, endlich erzeugte Kegel, dann auch T Ci . i∈I b) Zu A ∈ Rm×n ist {x ∈ Rn | Ax ≤ 0 } ein endlich erzeugter Kegel. 16. Übungsblatt 16 Aufgabe 16.1. Zeige: Jedes Polyhedron P = {x ∈ Rn | Ax ≤ b } mit A ∈ Rm×n und b ∈ Rm ist Summe P = Q + C eines Polyeders Q und eines polyhedralen Kegels C. Hinweis: Zeige, es gibt endlich viele λxii ∈ Rn+1 , λi ∈ {0, 1} für i = 1, . . . , k, mit a) λx ∈ Rn+1 Ax − λb ≤ 0, λ ≥ 0 = cone λx11 , . . . , λxkk b) P = kon(xi | λi = 1) + cone(xi | λi = 0). Aufgabe 16.2. Sei Q ⊆ Rn ein Polyeder und C ⊆ Rn ein endlich erzeugter Kegel. Zeige: Q+C ist Polyhedron. Hinweis: Sei Q := kon(x1 , ..., xk ), C :=cone(y1 , .. . , ym ). Zeige und benutze: x0 ∈ Q + C gdw. x10 ∈ cone x11 , . . . , x1k , y01 , . . . , y0m . Aufgabe 16.3. Beweise den Dualitätssatz für die Standardform (Korollar 13.20) LPstd minimiere cT x, so dass Ax = b x ≥0 und das zugehörige duale Programm: LP* std maximiere bT y, so dass AT y + s = c s ≥ 0. 17. Übungsblatt 17 Aufgabe 17.1. Beweise Satz 13.14 aus der Vorlesung. Für den Zulässigkeitsbereich Zstd gilt: a) Zwei Ecken p, p0 ∈ E(Zstd ), p 6= p0 , sind genau dann benachbart, d.h. [p, p0 ] ist eine Kante von Zstd , wenn zulässige, benachbarte Basis-Nichtbasis-Partitionen (B, N ), (B 0 , N 0 ) mit p = Φ(B, N ) und p0 = Φ(B 0 , N 0 ) existieren. b) Falls für zwei zulässige, benachbarte Basis-Nichtbasis-Partitionen (B, N ) und (B 0 , N 0 ) die Basislösungen Φ(B, N ) und Φ(B 0 , N 0 ) nicht benachbart sind, gilt Φ(B, N ) = Φ(B 0 , N 0 ) und die Ecke ist degeneriert. Aufgabe 17.2. Löse folgendes lineares Programm per Hand mit Hilfe des SimplexTableaus: Minimiere −x1 − 2x2 , so dass −2x1 + x2 −x1 + x2 x1 x1 , x2 ≤ 2 ≤ 3 ≤ 3 ≥ 0. 19. Übungsblatt 19 229 Zeichne den Lösungspolyhedron und markiere die jeweils zum Simplex-Tableau gehörende Basislösung bzw. Ecke. Aufgabe 17.3. Beweise folgende Variante des Farkas Lemmas (Korollar 12.44). Für A ∈ Rm×n , b ∈ Rn sind folgende Aussagen äquivalent: a) ∃x : Ax ≤ b. b) ∀y ≥ 0 mit y T A = 0 gilt y T b ≥ 0. Hinweis: Wende Variante I von Farkas’ Lemma (Korollar 12.43 aud Seite 149) an auf A0 := (Im , A, −A). 18. Übungsblatt 18 Aufgabe 18.1. Zeige das Trennungslemma für Kegel: Zu a1 , . . . , am , b ∈ Rn mit rang(a1 , . . . , am , b) = t sind folgende Aussagen äquivalent: a) b 6∈ KH(a1 , . . . , am ), b) Es gibt ein c ∈ Rn mit cT b < 0, cT a1 ≥ 0, . . . , cT am ≥ 0 und cT ai = 0 für t − 1 linear unabhängige ai . Aufgabe 18.2. Ein Kegel mit Spitze ist ein Kegel mit Ecke 0 und Dimension ≥ 1. Sei fi die Anzahl der Seiten der Dimension i. Zeige: ( d X 1 für Polyeder und Kegel ohne Spitze der Dimension ≤ d (−1)i fi = 0 für Kegel mit Spitze der Dimension ≤ d. i=0 Benutze die eulersche Polyederformel für beliebige Polyeder. P Aufgabe 18.3. Beweise die eulersche Polyederformel di=0 (−1)i fi = 1 für beliebige d-Polyeder durch Induktion über die Anzahl # E(P ) der Ecken mit Verankerung bei # E(P ) = 1. Hinweis: Seien e1 , e2 benachbarte Ecken und das Polyeder P 0 entstehe P aus P durch Verschmelzen von e1 , e2 . Zeige: di=0 (−1)i (fi − fi0 ) = 0. 19. Übungsblatt 19 Aufgabe 19.1. Sei Cn der C-Vektorraum mit dem kanonischen Skalarprodukt h·, ·i. Beweise die Cauchy-Schwarz’sche Ungleichung: | hv, wi | ≤ kvk · kwk Reduziere auf den Fall v, w ∈ C2 mit v ∈ C(1, 0)T . Aufgabe 19.2. Sei C([0, 2π], R) der R-Vektorraum der 2π-periodischen, stetigen Funktionen, √ B := { 21 2} ∪ {cos kx | k ∈ Z \ {0} } ∪ {sin kx | k ∈ Z \ {0} } R 2π und hf, gi := π1 0 f (x)g(x)dx. Zeige: a) B ist eine Orthonormalbasis. n √ P b) Für f (x) = a20 2 + (ak cos kx + bk sin kx) gilt ak = hf, cos kxi und bk = k=1 hf, sin kxi. Die ak und bk heißen Fourierkoeffizienten von f . 230 B. Übungsaufgaben Aufgabe 19.3. Sei f ∈ C([0, 2π], R) mit Fourierkoeffizienten ak , bk wie in Aufgabe 19.2. Zeige die Bessel’sche Ungleichung: ∞ kf k2 ≥ a20 X 2 + (ak + b2k ). 2 k=1 20. Übungsblatt 20 Aufgabe 20.1. Zeige das Determinanten-Multiplikation-Theorem (Fakt 14.23) für den Fall, dass A = [ei1 , . . . , ein ]> mit 1 ≤ i1 , . . . , in ≤ m. Dabei sei ej ∈ Km der j-te Einheitsvektor. Hinweis: [Fischer97, 3.3.7]. Aufgabe 20.2. Sei A ∈ O2 (R) eine orthogonale Matrix. Zeige, dass cos α − sin α cos α sin α A= oder A= sin α cos α sin α − cos α für genau ein α ∈ [0, 2π[ und genau einen der beiden Fälle. Interpretiere A im ersten Fall als Drehung und im zweiten Fall als Spiegelung an einer Geraden. Aufgabe 20.3. Sei A = (In , a) ∈ Kn×(n×1) mit a ∈ Kn . Zeige det AAT = 1 + aT a. Beweise auch das Determinanten-Multiplikations-Theorem für diesen Spezialfall. 21. Übungsblatt 21 Aufgabe 21.1. Sei K ein Körper der Charakteristik ungleich 2, d.h. 1 + 1 6= 0. Sei A ∈ Mn,n (K) symmetrisch mit A 6= 0. Zeige: Es gibt ein T ∈ Mn,n (K) mit det T 6= 0, so dass für A0 = T T AT gilt a011 6= 0. Vorschlag: (1) Falls a1,1 = 0, vertausche die Zeilen/Spalten von A, so dass a1,2 = a2,1 6= 0. (2) Löse das Problem für A0 = (ai,j )1≤i,j≤2 . Aufgabe 21.2. Sei 0 0 A= 1 0 0 1 1 2 1 1 0 0 0 2 ∈ Z4×4 . 3 0 2 Konstruiere T ∈ M4,4 (Z3 ) mit T T AT = D Diagonalmatrix. Aufgabe 21.3 (6 Punkte). Beweise Satz 14.38 auf Seite 185. Zeige: Zu A ∈ On (R) gibt es S ∈ On (R), so dass S T AS Diagonalkastenmatrix ist mit Kästen ±1 ∈ R1×1 , cos α − sin α cos α sin α , ∈ R2×2 . sin α cos α sin α − cos α Hinweis: Als Nullstellen von χA kommen in Frage: ±1 und Paare konjugiert komplexer Zahlen λ, λ mit |λ| = 1. Sind z, z ∈ Cn Eigenvektoren zu λ, λ mit z = x + iy, z = x − iy, dann ist hx, yi = 0 und x, y 6= 0. Siehe [Fischer97, 5.5.6]. 22. Übungsblatt 22 231 22. Übungsblatt 22 Aufgabe 22.1. Sei A ∈ Mn,n (C) hermitesch. Zeige: A ist positiv definit gdw. alle Hauptminoren von A positiv sind. Die Hauptminoren von A = (ai,j )i≤i,j≤n sind det(ai,j )1≤i,j≤m für m = 1, . . . , n. Hinweis: Wie verändern sich die Hauptminoren bei der Hauptachsentransformation von Satz 14.24? Aufgabe 22.2. Zeige für A ∈ Mn,n (C): P P a) χA = ni=0 ci λi gdw. χA = ni=0 ci λi . b) Ist A hermitesch, dann ist χA ∈ R[λ]. Aufgabe 22.3. A ∈ Cn×n heißt anti-hermitesch, wenn AT = −A. Zeige: a) Ist A anti-hermitesch, dann auch T T AT . b) Ist A anti-hermitesch, dann gibt es ein T ∈ GLn (C), so dass in T T AT höchstens zwei Nebendiagonalen ungleich null sind. Literaturverzeichnis [AC78] D. Avis und V. Chvátal: Notes on Bland’s Pivoting Rule, Mathematical Programming Study, Band 8, Seiten 23–34, 1978. [Beu98] A. Beutelspacher: Lineare Algebra, Vieweg, Braunschweig/Wiesbaden, dritte Auflage, 1998. [Bland77] R.G. Bland: New finite Pivoting Rules for the Simplex Method, Mathematics Operation Research, Band 2, Seiten 103–107,1977. [Cassels71] J.W.S. Cassels: An Introduction to the Geometry of Numbers, Springer-Verlag, Berlin/Heidelberg, 1971. [CS93] J.H. Conway und N.J.A. Sloane: Sphere Packings, Lattices and Groups, Springer, New York, zweite Auflage, 1993. [CJLOSS92] M.J. Coster, A. Joux, B.A. LaMacchina, A.M. Odlyzko, C.P. Schnorr und J. Stern: An improved low-density Subset Sum Algorithm, Computational Complexity, Band 2, Seiten 111–128, 1982. [Dantzig51] G.B. Dantzig: Maximization of a Linear Function of Variables Subject to Linear Inequalities, in T. Koopmans (Hrsg): Activity Analysis of Production and Allocation, Seiten 339–347, John-Wiley & Sons, New York, 1951. [Dantzig66] G.B. Dantzig: Lineare Programmierung und Erweiterungen, Springer-Verlag, Berlin/Heidelberg, 1966. [Dantzig83] G.B. Dantzig: Reminiscences About the Origins of Linear Programming, in A. Bachem, M. Grötschel und B. Korte (Hrsg.): Mathematical Programming: The State of of Art, Springer-Verlag, Berlin/Heidelberg, 1983. [Fischer92] G. Fischer: Analytische Geometrie, Vieweg Studium — Grundkurs Mathematik, Vieweg Verlag, Wiesbaden, 1992. [Fischer97] G. Fischer: Lineare Algebra, Vieweg, Braunschweig/Wiesbaden, 11.te Auflage, 1997. [Forster92] O. Forster: Analysis 1, Vieweg, Braunschweig/Wiesbaden, vierte Auflage, 1992. [FS78] G. Fischer und R. Sacher: Einführung in die Algebra, Teubner, Stuttgart, zweite Auflage, 1978. [G86] F.R. Gantmacher: Matrizentheorie, Springer, Berlin/Heidelberg, , 1986. [GL96] G. H. Golub und C. F. van Loan: Matrix Computations, John Hopkins University Press, Baltimore und London, dritte Auflage, 1996. [Jänrich96] K. Jänich: Lineare Algebra, Springer, Berlin/Heidelberg, sechste Auflage, 1996. [Karloff91] H. Karloff: Linear Programming, Progress in Theoretical Computer Science, Birkhäuser, Boston, 1991. 233 234 Literaturverzeichnis [Ka84] N.K. Karmakar: A new Polynomial-Time Algorithm for Linear Programming, Combinatorica, Band 4, Seiten 373-395, 1984. [Kh79] L.G. Khachiyan: A Polynomial-Time Algorithm for Linear Programming, Doklady Akademiia Nauk USSR, Band 244, Seiten 1093–1096, 1979. Englische Übersetzung in Soviet Mathematics Doklady, Band 20, Seiten 191–194, 1980. [KM72] V. Klee und G.J. Minty: How good is the Simplex Algorithms?, in O. Sisha (Hrsg.): Inequalities, Band III, Academic Press, New York, Seiten 159–175, 1972. [Koe83] M. Koecher: Lineare lin/Heidelberg, 1983. [LaOd85] J.C. Lagarias und A.M. Odlyzko : Solving low-density Subset Sum Problems, Journal of ACM, Band 32, Nr. 1, Seiten 229–246, 1985. [LLL82] A.K. Lenstra, H.W. Lenstra und L. Lovász: Factoring Polynomials with Rational Coefficients, Springer Mathematische Annalen, Band 261, Seiten 515–534, 1982. [Lint98] J.H. van Lint: Introduction to Coding Theory, Springer, New York, dritte Auflage, 1998. [MS86] F. J. MacWilliams und N.J.A. Sloane: The Theory of Error Correcting Codes. North-Holland, Amsterdam, fünfte Auflage, 1986. [PS82] C.H. Papadimitriou und K. Steiglitz: Combinatorical Optimization: Algorithms and Complexity, Prentice-Hall, Eaglewood Cliffs, New Jersey, 1982. [S86] A. Schrijver: Theory of Linear and Integer Programming, Wiley-Interscience Series in discrete Mathematics and Optimization, John Wiley & Son, New York, 1986. [V97] R.J. Vanderbei: Linear Programming: Foundations and Extensions, Kluwer Academic Press, Bosten, 1997. [W96] J. Wolfart: Einführung in die Zahlentheorie und Algebra. Vieweg, Braunschweig/Wiesbaden, 1996. Algebra und analytische Geometrie, Springer, Ber- Index Abbildung Homomorphismus, 23 lineare, 63 Abel, Niels Hendrik, 21 Abstand, 118 Adjunkte, 101 affin -er Halbraum, 135 -e Hülle, 135 isomorph, 140 unabhängig, 135 -er Untervektorraum, 31 Dimension, 135 Gerade, 31 parallel, 31 alternierende Gruppe, 97 Annulator, 175 Äquivalenzrelation, 28 Codes, 79 Matrizen, 105 Assoziativität, 13 Ausartungsraum, siehe Nullraum Austauschsatz von Steinitz, 38 Automorphismus, 24 komplexe Zahlen, 25 Basis, 34 Darstellung, 35 -ergänzungssatz, 38 Gitter-, 76, 201 Isomorphismus, 35 -lösung, 157 benachbarte Ecke, 161 -matrix, 77, 202 Orthogonal-, 125 Orthonormal-, 125 Standard-, 34 -variable, 157 -wechsel, 68 Basis-Nichtbasis-Partition, 157 zulässige, 157 Begleitmatrix, 114 benachbarte Ecke, 161 Bessel’sche Ungleichung, 230 Betragsnorm, 117 Big-M-Simplex-Algorithmus, 163 Bild, 64 Bilinearform, 176 degeneriert, 183 indefinit, 183 negativ definit, 183 Nullraum, 183 positiv definit, 176 Rang, 177 Zerlegung Vektorraum, 190 Binomialkoeffizient, 151 BNP, siehe Basis-Nichtbasis-Partition C, siehe komplexe Zahlen Cardano, Geronimo, 16 Cauchy-Schwarz-Ungleichung, 118, 123, 179 Charakteristik, 191 charakteristisches Polynom, 110, 111 Chinesischer Restsatz, 88 Cone, siehe Kegel Cosinussatz, 125 Cramer’sche Regel, 102 Cycling, 162 Dantzig, Georg, 154 Darstellungsmatrix, 68 Transformationsformel, 68, 177 Definitheit, positive, 117, 176, 177 Degeneration, 158 Bilinearform, 183 Simplex-Tableau, 168 Descartes, René, 4 Determinante, 95 Berechnung, 95 Diagonalmatrix, 95 Eindeutigkeit, 94 236 Entwicklungssatz von Laplace, 100 -nfunktion, 92 Gitter-, 202 Leibnizformel, 97 Multilinearitat, 93 Multiplikationstheorem, 180 Multiplikativität, 103 transponierte Matrix, 99 diagonalisierbare Matrix, 106 Dimension -sformel lineare Abbildung, 64 -ssatz, 39 Vektorraum, 37 Diophantische Approximation, 207 direkte Summe externe, 85 innere, 85 direktes Produkt, 85, 88 diskret, 201 Distanz, 118 Division mit Rest, 26, 48 Divisionsring, siehe Schiefkörper Dreiecksmatrix, 11 Dreiecksungleichung, 117 dual -e Basis, 174 -er Code, 78 -er Kegel, 146 -es Programm, 169 -er Vektorraum, 173, 174 Dualität schwache, 170 starke, 170, 171 Vektorraum, 173 Ecke benachbarte, 161 degeneriert, 158 Polyhedron, 139 Eigenraum, 108 Eigenvektor, 106 Eigenwert, 106 Vielfachheit, 112 Eindeutigkeit Einselement, 14, 22 Inverses, 14, 22 Nullelement, 14 Einheit, siehe Einselement Einheitengruppe, 22 Einheits -matrix, 10 -vektor, 33 Einselement, 13 Einsetzungshomomorphismus, 47 Elementarmatrix, 10 Index Eliminationsverfahren, siehe Gauß-Algo. Endomorphismus, 24 Hauptachsentheorem, 186 orthogonaler, 184 selbstadjungiert, 186 unitärer, 184 Epimorphismus, 24 Erzeugendensystem, 33 minimales, 34 erzeugendes Element, siehe Generator Erzeugnis, siehe lineare Hülle Euklid, 18 euklidische Länge, 89 Norm, 117 -r Vektorraum, 122, 179 Euler, Leonhard, 17 Extremalpunkt, 136 Faktorring, 26, 50 Faltung, 44 Fehlstand, 96 Fläche Polyhedron, 139 Fourierkoeffizient, 229 Fq , 16 freie Variable, 153 Frobenius-Homomorphismus, 192 Frobenius-Norm, 119 Fundamentalsatz der Algebra, 52 Funktion konkave, 143 konvexe, 142 Galois, Evariste, 16 Galoisfeld, 16 Gauß, Carl Friedrich, 4, 18, 52 Gauß-Algorithmus, 3 Gauß’sche Zahlenebene, 17 Generator Gruppe, 198 -matrix, 77 Generatormatrix kanonische, 79 Gerade, 31 Halb-, 141 Gitter, 76, 201 -basis, 76, 201 Basismatrix, 202 -determinante, 202 Grundmasche, 203 Rang, 201 gitterartige Kugelpackung, 76 GLn , 22, 128 Grad Polynom, 42 Index Gram-Matrix, 202 Gram-Schmidt-Koeffizient, 126 Grundmasche, 203 Gruppe, 21 abelsche, 21 alternierende, 97 Generator, 198 Homomorphismus, 23 kommutative, 21 Ordnung eines Elementes, 198 orthogonale Matrizen, 128 primitives Element, 198 symmetrische, 96 Unter-, 23 zyklisch, 198 Halbgerade, 141 Halbgruppe, 21 Homomorphismus, 24 Halbraum, 135 Hamilton, William Rowan, 20 Hamming -Code, 80 -Distanz, 72 -Gewicht, 72 -Radius, 73 Hamming, Richard W., 72, 80 Hauptachsentheorem, 186 Hauptachsentrandformation symmetrische Matrizen, 181 Hauptminor, 231 hermitesch -Form positiv definit, 178 -e Form, 178 -e Matrix, 178 hermitesche anti-, 231 Hölder’sche Ungleichung, 118 Homogenität positive, 117 Homomorphieprinzip, 24 Homomorphismus, 23 Bild, 24 Frobenius-, 192 Gruppen-, 23 Halbgruppen-, 24 Kern, 24 Körper, 24 Monoid-, 24 Ring-, 24 Hyperebene, 31 imaginäre Einheit, 17 Imaginärteil, 17 indefinit 237 Bilinearform, 183 Injektion, 86 Integritätsbereich, siehe Intergritätsring Intergritätsring, 19 Interpolationspolynom, 55 Lagrange’sche Form, 56 Interpolationsproblem, 55 Inverses, 13 irreduzibles Polynom, 195 Isometrie, siehe orthog. Endomorhismus isometrische Abbildung, 127, 184 isomorph, 25 affin, 140 Isomorphismus, 24 affiner, 140 Iwasawa-Zerlegung, 129 Jordan-Kästchen, 106, 113 Jordan-Normalform, 116 kanonische Form, 154 duales Programm, 169 Kante Polyhedron, 139 Kantorvicz, L.V., 154 kartesisch -e Koordinaten, 4 -es Produkt, 85 Kästchensatz, 104 Kegel, 145 dualer, 146 endlich erzeugter, 146 Kepler, Johannes, 77 Kern, 64 Kodierungstheorie, 71 Koeffizient, 3 Kommutativität, 13 komplementäre Matrix, 101 komplementäre Slackness, 171 komplexe Konjugation, 25 komplexe Zahlen, 16 imäginare Einheit, 17 Imaginärteil, 17 Polarkoordinaten, 17 Realteil, 17 komplexer Vektorraum, 178 Skalarprodukt, 178 Komposition, 22 kongruent, 28 konjugiert komplexe Zahl, 25 konkave Funktion, 143 Kontrollmatrix, siehe PCH-Matrix Konvergenz quadratische, 121 konvexe Funktion, 142 238 Hülle, 133 Menge, 133 Extremalpunkt, 136 Konvexkombination, 133 Konvolution, 44 Koopmans, T.C., 154 Koordinaten -funktion, 68 Koordinatenvektor, 35 Körper, 13, 22 angeordnet, 15 Charakteristik, 191 endlicher, 16 -Homomorphismus, 24 komplexe Zahlen, 16 Prim-, 193 Unter-, 19 Zerfällungs-, 196 Kostenfunktion, siehe Zielfunktion Kreisen, 162 Kronecker-Symbol, 10 Kugel, 73, 119 Lagarias, J.C., 209 Lagrange-Koeffizient, 57 Laplace’scher Entwicklungssatz, 100 Laplace, Pierre Simon, 100 Leibniz, Gottfried Wilhelm, 97 LGS, siehe lineares Gleichungssystem Dimension homogener, 62 linear abhängig, 33 linear unabhängig, 33 lineare Abbildung, 63 Basiswechsel, 68 charakteristisches Polynom, 111 Darstellungsmatrix, 68 Dimensionsformel, 64 Eigenvektor, 106 Eigenwert, 106 isometrische, 127, 184 orthogonale, 127, 184 Projektion, 84 Rang, 65 Vektorraum, 63 lineare Gleichung, 3 lineare Hülle, 32 linearer Code, 71, 72 äquivalenter, 79 Basismatrix, 77 binärer, 72 Dekodierung, 72 dualer Code, 78 t-fehlererkennend, 73 t-fehlerkorrigierend, 73 Generatormatrix, 77 guter, 74 Index Hamming-Code, 80 Hamming-Distanz, 72 Hamming-Gewicht, 72 Informationsbits, 74 Informationsrate, 74 Korrekturbits, 74 Korrekturrate, 74 Minimalabstand, 72 Minimalgewicht, 73 Paritätscode, 75 PCH-Matrix, 79 Singleton-Schranke, 225 t-perfekter, 76 linearer Raum, siehe Vektorraum lineares Gleichungssystem Lösungsmenge, 4 lineares Gleichungssystem, 3 Cramer’sche Regel, 102 Gauß-Algorithmus, 3 homogenes, 8 Treppenform, 5 Vektorraum, 32 lineares Programm duales, 169 kanonische Form, 154 Optimalitätskriterium, 160 Standardform, 155 widersprüchliches, 155 zulässiges, 155 Linearform, 174 Linearkombination, 32 LosungsmengeLösungsmenge lineares Gleichungssystem, 4 lineares Programm, 155 Manigfaltigkeit, 175 Matrix, 3 Adjunkte, 101 ähnliche, 105 anti-hermitesch, 231 Äquivalenzrelation, 105, 189 Begleit-, 114 blockdiagonale, 114 charakteristisches Polynom, 110 Darstellungsmatrix, 68 Determinante, 95 diagonalisierbar, 106 Dreiecks-, 11 Eigenvektor, 106 Eigenwert, 106 Einheits-, 10 Elementar-, 10 erweiterte, 4 Gruppen, 128 hermitesche, 178 invertieren, 38, 95, 101 Index Iwasawa-Zerlegung, 129 Jordan-Normalform, 116 komplementäre Matrix, 101 kongruente, 189 Minor, 101 -norm, 119 Submultiplikativität, 120 Normalform, 114 orthogonale, 127, 184 Permutations-, 12 positiv definit, 177, 178 Produkt, 9 Rang, 60 Spaltenrang, 59 Spaltenraum, 59 Streichungs-, 100 symmetrische Hauptachsentransformation, 181 Trägheitsindex, 189 transponierte, 220 Treppenform, 5 unitäre, 184 Vandermonde-Matrix, 56, 101 Zeilenrang, 59 Zeilenraum, 59 Maximum-Likelihood-Dekodierung, 72 Maximumsnorm, 117 Mehrdeutigkeit Simplex-Tableau, 168 Metrik, 118 Minimal -abstand, 72 -Distanz-Dekodierung, 72 -gewicht, 73 Minimalestelle lokale, 142 Minkowski, Hermann, 137 Minor, 101 modulo, 26 Monoid, 21 Homomorphismus, 24 Monom, 41 Monomorphismus, 24 multilineare Funktion, 93 Nachbartransposition, 96 negativ definit Bilinearform, 183 von Neumann, John, 169 Nichtbasisvariable, 157 Nichtnegativitätsbedingung, 153 Norm, 117 Äquivalenz, 118 Betrags-, 117 Euklidische, 117 Frobenius-, 119 239 Matrix-, 119 Maximums-, 117 Normalform, 114 Jordan-, 116 selbstadjungierter Endomorphismus, 186 Nullelement, 13 Nullpolynom, 41 Nullraum Bilinearform, 183 Nullstelle, 51 Nullstellenmenge, 175 Nullteiler, 14 Odlyzko, A.M., 209 Orthogonal -basis, 125 -es Komplement, 125 -raum, 78, 83 -vektoren, 90 orthogonal -e Abbildung, 127, 184 -er Endomorhismus, 184 -e Gruppe, 128 -es Komplement, 83 -e Matrix, 127, 184 -e Projektion, 84 Orthogonalisierung Gram-Schmidt-Koeffizient, 126 Schmidt’sches Verfahren, 126 Orthogonalität, 78, 125 Orthonormal -basis, 125 -system, 125 Packungsdichte, 76 parallel, 31 Parallelepiped, 90 Parallelflach, siehe Parallelepiped Parallelogrammgleichung, 125 Parallelotop, siehe Parallelepiped PCH-Matrix, 79 kanonische, 79 Permutation, 95, 96 alternierende Gruppe, 97 Fehlstand, 96 gerade, 97 -smatrix, 12 Nachbartransposition, 96 Signum, 97 symmetrische Gruppe, 96 Transposition, 96 ungerade, 97 Pivot-Regel, 161 Best-Improvement-Regel, 161 Blands, 162 Nonbasic-Gradient-Methode, 161 240 Pivot-Wahl, 161 Pivotelement, 7 Polarkoordinaten, 17 Polyeder -formel, 150 konvexer, 135 Polygon, 135 Polyhedral, 145 Polyhedron, 135 Dimension, 135 Ecke, 136, 139 Fläche, 139 Kante, 139 Seite, 138 Polynom, 41 Begleitmatrix, 114 charakteristisches, 110 Division mit Rest, 48 Einsetzungshomomorphismus, 47 Faktorring, 50 führender Koeffizient, 42 Gleichheit, 42 Gradformel, 45 -ideal, 175 Interpolations-, 55 irreduzibles, 195 Koeffizientenvektor, 43 konstantes, 42 Lagrange-Koeffizient, 57 Linearfaktor, 51 normiertes, 42, 114 Null-, 41 Nullstelle, 51 Produkt, 44 -Ring, 46 Skalarmultiplikation, 43 Summe, 43 -vektorraum, 44 Wurzel, 51 Zerfall in Linearfaktoren, 52 Polytope, 135 positiv definit Bilinearform, 176 hermitesche Form, 178 Matrix, 177, 178 Primkörper, 193 Projektion, 84 Prüfmatrix, siehe PCH-Matrix quadratische Form, 179 Quaternionen-Schiefkörper, 20 Radikalideal, 175 Rang, 60 Bilinearform, 177 Gitter, 201 Index linearen Abbildung, 65 Realteil, 17 Repräsentant Restklasse, 26 Rest, 26, 48 Restklasse, 26 Repräsentant, 26 Richtungsraum, 31, 135 Ring, 19, 23 -Homomorphismus, 24 Intergritäts-, 19 kommutativer, 19 mit Eins, 19 nullteilerfrei, 19 Polynom-, 46 Unter-, 20 Rucksack-Problem, 208 Ruffini, 51 Satz Cayley-Hamilton, 116 Fundamentalsatz der Algebra, 52 Ruffini, 51 Trägheits-, 189 Schattenpreis, 160 Schiefkörper, 20 Quaternionen-, 20 Schlupfvariable, 155 Schmidt-Orthogonalisierungsverfahren, 126 Seite Polyhedron, 138 selbstadjungierter Endomorphismus, 186 Hauptachsentheorem, 186 Sesquilinearform, 178 Signum, 97 Simplex, 135 Simplex-Algorithmus Big-M-, 163 Tableau, 164 Simplex-Tableau Kurzform, 168 Singleton-Schranke, 225 Skalarprodukt, 122, 176 kanonisches, 122, 178 komplexer Vektorraum, 178 Slack-Variable, 155 Spann, siehe lineare Hülle Standardform, 155 Streichungsmatrix, 100 Stützebene, 138, 145 Submultiplikativität Matrixnorm, 120 Subsetsum-Problem, siehe Rucksack-Problem Sylvester Trägheitssatz, 189 symmetrische Gruppe, 96 Index Trägheitsindex, 189 Trägheitssatz, 189 Transformationsformel Darstellungsmatrizen, 68, 177 transponierte Matrix, 220 Transposition, 96 Trennungslemma, 144 Treppenform, 5 Unbestimmte, 3, 41 Ungleichung Bessel’sche, 230 Cauchy-Schwarzsche, 118, 123, 179 Dreiecks-, 117 Hölder’sche, 118 unitär -e Abbildung, 184 -e Endomorhismus, 184 -e Matrix, 184 -er Vektorraum, 179 Unter -körper, 19 -vektorraum, 31 affiner, 31, 135 Vandermonde-Matrix, 56, 101 Variable freie, 6 gebundene, 6 Variablen-Splitting, 153 Vektor, 4 Einheitsvektor, 33 Länge, 89 -norm, 117 orthogonal, 125 Spalten-, 4 Zeilen, 4 Vektorraum, 29 Basis, 34 Dimension, 37 dualer, 173 Erzeugendensystem, 33 euklidischer, 122, 179 komplexer, 178 lineare Abbildung, 63 Metrik, 118 Norm, 117 Orthogonalbasis, 125 Orthogonalraum, 78, 83 Orthonormalbasis, 125 Polynom-, 44 Skalarprodukt, 122 unitärer, 179 Unter-, 31 Verbindungsstrecke, 133 Vielfachheit 241 Eigenwert, 112 Nullstelle, 51 Volumen, 91 widersprüchliches lineares Programm, 155 Winkel, 124 wohldefiniert, 27 Zerfällungskörper, 196 Zielfunktion, 153 relative, 159 Zn , 26 zulässiges lineares Programm, 155 Zwei-Phasen-Simplex-Algorithmus, 162 zyklische Gruppe, 198