Skalardaten I
Transcrição
Skalardaten I
Visualisierung I 4. Skalardaten Vorlesung: Mi, 9:00 – 11:00, INF 368 – 532 Übung: Do, 14:00 – 16:00, INF 350 – OMZ R U011 JProf. Heike Jänicke – http://www.iwr.uni-heidelberg.de/groups/CoVis/ Inhaltsverzeichnis 1. Einführung 2. Visuelle Wahrnehmung 3. Datentypen und Datenrepräsentation 4. Skalardaten 5. Statistische Graphiken 6. Interaktion und Datenexploration 7. Darstellung von Graphen 8. Vektordaten 9. Tensordaten 10. Klausurvorbereitung Visualisierung I – 4. Skalardaten 2 Inhaltsverzeichnis 4. Skalardaten (in Tabellenform) 1. Univariate Daten 1. Balkendiagramm 2. Kuchendiagramm 3. Blasendiagramm 4. Wortmosaik (TagCloud) 2. Multivariate Daten und Bäume 1. Datenmosaik (Mosaic Display) 2. Baummosaik (Treemap) 3. Matrixdiagramm 4. Chernoffgesichter 3. Zeitreihen 1. Liniendiagramm 2. FlowMap 3. ThemenFluß Visualisierung I – 4. Skalardaten 3 Skalare Daten in Tabellenform Die erfolgreichsten Animationsfilme aller Zeiten Shrek 2 2004 $441,226,247 Shrek the Third 2007 $322,719,944 Shrek 2001 $267,665,011 Mulan 1998 $120,620,254 Hercules 1997 $99,112,101 Beowulf 2007 $82,280,579 Hoodwinked 2005 $51,386,611 Return to Never Land 2002 $48,430,258 Final Fantasy: The Spirits Within 2001 $32,131,830 The Lord of the Rings (1978) 1978 $30,471,420 Sinbad: Legend of the Seven Seas 2003 $26,483,452 Quest for Camelot 1998 $22,510,798 The Black Cauldron 1985 $21,288,692 Happily N'Ever After 2007 $15,589,393 Arthur and the Invisibles 2006 $15,132,763 The Pagemaster 1994 $13,670,688 Spirited Away 2002 $10,055,859 The Swan Princess 1994 $9,771,658 Marktanteile der Filmstudios He-Man and She-Ra in The Secret of the Sword 1985 $7,660,857 Warner Bros. 1982 15.60% The Last Unicorn $6,455,330 20th Century Fox 15.30% Princess Mononoke 1999 $2,375,308 Universal 11.40% The Princess and the Goblin 1994 $2,105,078 Buena Vista 10.40% Little Nemo: Adventures in Slumberland 1992 $1,368,000 Sony / Columbia 10.40% The Adventures of Mark Twain 1986 $849,915 Paramount 9.40% Fire and Ice 1983 $760,883 DreamWorks SKG 5.70% Delgo 2008 $694,782 New Line 4.80% The Swan Princess II 1997 $273,644 Lionsgate 3.20% A Troll in Central Park 1994 $71,368 Dimension Films 2.10% Miramax 2.10% MGM/UA 2.10% Visualisierung I – 4. Skalardaten Frequency and top words : Word game ball players goal play time football team may laws # 33 32 32 26 22 20 19 18 18 17 Frequency 2.50% 2.40% 2.40% 2.00% 1.70% 1.50% 1.40% 1.40% 1.40% 1.30% Rank 1 2 2 3 4 5 6 6 6 7 4 Diagramme ● ● Ein Diagramm ist eine grafische Darstellung von Informationen zur Illustration von Größenverhältnissen oder Zahlenwerten. Häufig verwendete Diagrammtypen: – Balken-/Säulendiagramm – Liniendiagramm – Kuchen-/Kreisdiagramm Visualisierung I – 4. Skalardaten 5 Balken- und Säulendiagramme ● ● ● ● Balkendiagramme stellen die zu verschiedenen Gruppen gehörigen Werte als Rechtecke dar, welche an einer Achse ausgerichtet sind. Sie dienem dem Vergleich numerischer Werte. Daten: – Diskreter oder diskretisierter Definitionsbereich – Multivariate Daten möglich (gruppierte Balken-/Säulendiagramme) Vorteile: – Leicht verständlich – Gute Vergleichbarkeit von Größen – Einfach zu implementieren Nachteile: – Nur für begrenzte Datenmengen geeignet Visualisierung I – 4. Skalardaten 6 Balken- und Säulendiagramme – Erweiterungen ● Verfügbare Diagrammtypen in Microsoft Office Excel Gruppierte Säule und gruppierte 3D-Säule Gestapelte Säule und gestapelte 3D-Säule 3D-Säule Zylinder, Kegel und Pyramiden Gestapelte Säule (100%) und gestapelte 3-D-Säule (100%) Visualisierung I – 4. Skalardaten 7 Kuchendiagramme ● ● ● ● Kuchendiagramme unterteilen einen Kreis in verschiedenfarbige Segmente die den Anteilen der Gruppen entsprechen. Sie dienen der Veranschaulichung von Anteilen. Daten: – Diskreter oder diskretisierter Definitionsbereich – Positive Werte – Die Einzelwerte müssen Teil eines Ganzen sein und sollten sich zu 100% addieren. – Meist Univariate Daten Vorteile: – Leicht verständlich – Datenmenge wird als ganzes wahrgenommen – Große Überzeugungskraft Nachteile: – Nur für begrenzte Datenmengen geeignet – Numerisch Werte können verhältnismäßig schlecht abgelesen werden Visualisierung I – 4. Skalardaten 8 Blasendiagramme (Bubble Chart) ● ● ● ● Blasendiagramme stellen jedes Datenelement als einen Kreis dar, der entsprechend seinem Wert skaliert wird. Die Position kann entweder beliebig sein oder so gewählt werden, dass sie Zusammenhänge verdeutlicht. Daten: – Diskreter oder diskretisierter Definitionsbereich – Multivariate Daten können mittels Kuchendiagrammen im Kreis dargestellt werden Vorteile: – Größere Datenmengen möglich – Darstellung von Werten verschiedener Größenordnung Nachteile: – Darstellung negativer Werte benötigt Farbkodierung – Numerisch Werte können verhältnismäßig schlecht abgelesen werden – Information kann leicht übersehen werden – Labeling bei großen Datenmengen eher schwierig Visualisierung I – 4. Skalardaten 9 Blasendiagramme – Beispiele Visualisierung I – 4. Skalardaten 10 Blasendiagramme – Beispiele [infragistics.com] [gigawiz.com] [infochimps.org] Visualisierung I – 4. Skalardaten 11 Darstellung von Texten Association football, more commonly known as football or soccer (etymology), is a team sport played between two teams of eleven players using a spherical ball. It is widely considered to be the most popular sport in the world.[1][2][3] The game is played on a rectangular grass or artificial turf field, with a goal in the centre of each of the short ends. The object of the game is to score by driving the ball into the opposing goal. In general play, the goalkeepers are the only players allowed to use their hands or arms to propel the ball; the rest of the team usually use their feet to kick the ball into position, occasionally using their torso or head to intercept a ball in midair. The team that scores the most goals by the end of the match wins. If the score is tied at the end of the game, either a draw is declared or the game goes into extra time and/or a penalty shootout, depending on the format of the competition. The modern game was codified in England following the formation of The Football Association, whose 1863 Laws of the Game created the foundations for the way the sport is played today. Football is governed internationally by the Fédération Internationale de Football Association (International Federation of Association Football), commonly known by the acronym FIFA. The most prestigious international football competition is the FIFA World Cup, held every four years.[4] Football is played in accordance with a set of rules known as the Laws of the Game. The game is played using a single spherical ball, known as the football or soccer ball. Two teams of eleven players each compete to get the ball into the other team\'s goal (between the posts and under the bar), thereby scoring a goal. The team that has scored more goals at the end of the game is the winner; if both teams have scored an equal number of goals then the game is a draw. Each team is led by a captain. The primary law is that players other than goalkeepers may not deliberately handle the ball with their hands or arms during play, though they do use their hands during a throw-in restart. Although players usually use their feet to move the ball around, they may use any part of their bodies other than their hands or arms.[5] Within normal play, all players are free to play the ball in any direction and move throughout the pitch, though the ball cannot be received in an offside position. In typical game play, players attempt to create goal scoring opportunities through individual control of the ball, such as by dribbling, passing the ball to a team-mate, and by taking shots at the goal, which is guarded by the opposing goalkeeper. Opposing players may try to regain control of the ball by intercepting a pass or through tackling the opponent in possession of the ball; however, physical contact between opponents is restricted. Football is generally a free-flowing game, with play stopping only when the ball has left the field of play or when play is stopped by the referee. After a stoppage, play recommences with a specified restart.[6] Frequency and top words : Word game ball players goal play time football team may laws # 33 32 32 26 22 20 19 18 18 17 Frequency 2.50% 2.40% 2.40% 2.00% 1.70% 1.50% 1.40% 1.40% 1.40% 1.30% Rank 1 2 2 3 4 5 6 6 6 7 At a professional level, most matches produce only a few goals. For example, the 2005–06 season of the English Premier League produced an average of 2.48 goals per match.[7] The Laws of the Game do not specify any player positions other than goalkeeper,[8] but a number of specialised roles have evolved. Broadly, these include three main categories: strikers, or forwards, whose main task is to score goals; defenders, who specialise in preventing their opponents from scoring; and midfielders, who dispossess the opposition and keep possession of the ball in order to pass it to the forwards on their team. Players in these positions are referred to as outfield players, in order to discern them from the single goalkeeper. These positions are further subdivided according to the area of the field in which the player spends most time. For example, there are central defenders, and left and right midfielders. The ten outfield players may be arranged in any combination. The number of players in each position determines the style of the team\'s play; more forwards and fewer defenders creates a more aggressive and offensive-minded game, while the reverse creates a slower, more defensive style of play. While players typically spend most of the game in a specific position, there are few restrictions on player movement, and players can switch positions at any time.[9] The layout of a team\'s players is known as a formation. Defining the team\'s formation and tactics is usually the prerogative of the team\'s manager.[10] Visualisierung I – 4. Skalardaten 12 Darstellung von Texten Association football, more commonly known as football or soccer (etymology), is a team sport played between two teams of eleven players using a spherical ball. It is widely considered to be the most popular sport in the world.[1][2][3] The game is played on a rectangular grass or artificial turf field, with a goal in the centre of each of the short ends. The object of the game is to score by driving the ball into the opposing goal. In general play, the goalkeepers are the only players allowed to use their hands or arms to propel the ball; the rest of the team usually use their feet to kick the ball into position, occasionally using their torso or head to intercept a ball in midair. The team that scores the most goals by the end of the match wins. If the score is tied at the end of the game, either a draw is declared or the game goes into extra time and/or a penalty shootout, depending on the format of the competition. The modern game was codified in England following the formation of The Football Association, whose 1863 Laws of the Game created the foundations for the way the sport is played today. Football is governed internationally by the Fédération Internationale de Football Association (International Federation of Association Football), commonly known by the acronym FIFA. The most prestigious international football competition is the FIFA World Cup, held every four years.[4] Football is played in accordance with a set of rules known as the Laws of the Game. The game is played using a single spherical ball, known as the football or soccer ball. Two teams of eleven players each compete to get the ball into the other team\'s goal (between the posts and under the bar), thereby scoring a goal. The team that has scored more goals at the end of the game is the winner; if both teams have scored an equal number of goals then the game is a draw. Each team is led by a captain. The primary law is that players other than goalkeepers may not deliberately handle the ball with their hands or arms during play, though they do use their hands during a throw-in restart. Although players usually use their feet to move the ball around, they may use any part of their bodies other than their hands or arms.[5] Within normal play, all players are free to play the ball in any direction and move throughout the pitch, though the ball cannot be received in an offside position. Frequency and top words : Word game ball players goal play time football team may laws # 33 32 32 26 22 20 19 18 18 17 Frequency 2.50% 2.40% 2.40% 2.00% 1.70% 1.50% 1.40% 1.40% 1.40% 1.30% Rank 1 2 2 3 4 5 6 6 6 7 In typical game play, players attempt to create goal scoring opportunities through individual control of the ball, such as by dribbling, passing the ball to a team-mate, and by taking shots at the goal, which is guarded by the opposing goalkeeper. Opposing players may try to regain control of the ball by intercepting a pass or through tackling the opponent in possession of the ball; however, physical contact between opponents is restricted. Football is generally a free-flowing game, with play stopping only when the ball has left the field of play or when play is stopped by the referee. After a stoppage, play recommences with a specified restart.[6] At a professional level, most matches produce only a few goals. For example, the 2005–06 season of the English Premier League produced an average of 2.48 goals per match.[7] The Laws of the Game do not specify any player positions other than goalkeeper,[8] but a number of specialised roles have evolved. Broadly, these include three main categories: strikers, or forwards, whose main task is to score goals; defenders, who specialise in preventing their opponents from scoring; and midfielders, who dispossess the opposition and keep possession of the ball in order to pass it to the forwards on their team. Players in these positions are referred to as outfield players, in order to discern them from the single goalkeeper. These positions are further subdivided according to the area of the field in which the player spends most time. For example, there are central defenders, and left and right midfielders. The ten outfield players may be arranged in any combination. The number of players in each position determines the style of the team\'s play; more forwards and fewer defenders creates a more aggressive and offensive-minded game, while the reverse creates a slower, more defensive style of play. While players typically spend most of the game in a specific position, there are few restrictions on player movement, and players can switch positions at any time.[9] The layout of a team\'s players is known as a formation. Defining the team\'s formation and tactics is usually the prerogative of the team\'s manager.[10] Visualisierung I – 4. Skalardaten 13 Wortwolke/-mosaik (TagCloud, Wordle) ● ● In einer Schlagwortwolke wird eine List von Schlagwörtern flächig dargestellt. Wichtige Wörter werden zumeist durch Skalierung hervorgehoben. Skalierung der Wörter nach Häufigkeit: mit ● ni −nmin a= nmax −n min s i =1−a⋅smin a⋅smax – ni: Häufigkeit des aktuellen Wortes – nmin: Häufigkeit des seltensten Wortes – nmax: Häufigkeit des häufigsten Wortes – smin: kleinste Schriftgröße – smax: größte Schriftgröße Wordle: http://www.wordle.net Visualisierung I – 4. Skalardaten 14 Wortwolke (TagCloud, Wordle) ● ● ● Die einfachste Art dieser Darstellung ist die Wortwolke. Hier werden die Worte alphabetisch in Zeilen angeordnet. Die Größe eines Wortes entspricht wie gehabt seiner Häufigkeit. Vorteile: – Leicht zu implementieren – Leichtes Suchen nach bestimmten Wörtern Nachteile: – Platz wird nicht effizient ausgenutzt – Position von Wörtern kann nur wenig beeinflusst werden [wikipedia: Häufigsten Schlagwörter bei Flickr] Visualisierung I – 4. Skalardaten 15 Wortmosaik (TagCloud, Wordle) ● ● ● Im Wortmosaik kann die Position der einzelnen Wörter frei bestimmt werden. Häufig werden Optimierungsalgorithmen eingesetzt, die für eine kompakte Darstellung sorgen. Vorteile: – Bessere Ausnutzung des Platzes – Meist optisch ansprechender – Text kann in eine bestimmte Form eingepasst werden Nachteile: – Rechenaufwand – Suche nach bestimmten Wörtern sehr umständlich Visualisierung I – 4. Skalardaten [InfoVis:Wiki] [http://manyeyes.alphaworks.ibm.com/manyeyes/] 16 Demo Wordle ● ● Programm: Wortwolkengenerator Wordle unter http://www.wordle.net/ Text: 1. Mose – Schöpfungsgeschichte (Bibel) unter http://www.bibel-online.net/buch/01.1-mose/1.html#1,1 Visualisierung I – 4. Skalardaten 17 Wortwolke Algorithmus ● Man nehme einen Text, ein Themengebiet etc. und extrahiere die relevanten Wörter. Badesee Eis Fussball Heidelberg Sommer Sonne Urlaub Wasser Visualisierung I – 4. Skalardaten 18 Wortwolke Algorithmus ● Man nehme einen Text, ein Themengebiet etc. und extrahiere die relevanten Wörter. ● Die Schriftgröße eines jeden Wortes wird entsprechend seiner Bedeutung skaliert. Badesee Eis Fussball Heidelberg Sommer Sonne Urlaub Wasser Badesee Eis Fussball Heidelberg Sommer Sonne Urlaub Wasser Visualisierung I – 4. Skalardaten 19 Wortwolke Algorithmus ● Man nehme einen Text, ein Themengebiet etc. und extrahiere die relevanten Wörter. ● Die Schriftgröße eines jeden Wortes wird entsprechend seiner Bedeutung skaliert. ● Man sortiere die Wörter nach absteigender Bedeutung. Badesee Eis Fussball Heidelberg Sommer Sonne Urlaub Wasser Badesee Eis Fussball Heidelberg Sommer Sonne Sonne Badesee Fussball Urlaub Wasser Urlaub Sommer Eis Wasser Heidelberg Visualisierung I – 4. Skalardaten 20 Wortwolke Algorithmus ● Man nehme einen Text, ein Themengebiet etc. und extrahiere die relevanten Wörter. ● Die Schriftgröße eines jeden Wortes wird entsprechend seiner Bedeutung skaliert. ● Man sortiere die Wörter nach absteigender Bedeutung. ● Für jedes Wort wird bestimmt, ob es horizontal oder vertikal angezeigt werden soll. Badesee Eis Fussball Heidelberg Sommer Sonne Urlaub Wasser Badesee Eis Fussball Heidelberg Sommer Sonne Sonne Badesee Fussball Urlaub Wasser Urlaub Sommer Eis Wasser Heidelberg Visualisierung I – 4. Skalardaten 21 Wortwolke Algorithmus ● Man nehme einen Text, ein Themengebiet etc. und extrahiere die relevanten Wörter. ● Die Schriftgröße eines jeden Wortes wird entsprechend seiner Bedeutung skaliert. ● Man sortiere die Wörter nach absteigender Bedeutung. ● Für jedes Wort wird bestimmt, ob es horizontal oder vertikal angezeigt werden soll. ● Innerhalb eines begrenzten Bereiches bestimmt man für jedes Wort eine zufällige Startposition. Sonne Badesee Fussball Urlaub Wasser 7 3 4 1 8 5 2 6 Sommer Eis Heidelberg Visualisierung I – 4. Skalardaten 22 Wortwolke Algorithmus ● Man versucht nun sukzessive jedes Wort an der Position anzuzeigen, die vorher bestimmt wurde. Badesee Fussball Urlaub Wasser 7 3 4 Sonne 1 5 2 8 6 Sommer Eis Heidelberg Visualisierung I – 4. Skalardaten 23 Wortwolke Algorithmus ● ● Man versucht nun sukzessive jedes Wort an der Position anzuzeigen, die vorher bestimmt wurde. Es ergeben sich nun zwei Fälle: – Das Wort überdeckt kein anderes → Es bleibt wo es ist. Badesee Fussball Urlaub Wasser 7 3 4 Sonne 1 5 2 8 6 Sommer Eis Heidelberg Visualisierung I – 4. Skalardaten 24 Wortwolke Algorithmus ● ● Man versucht nun sukzessive jedes Wort an der Position anzuzeigen, die vorher bestimmt wurde. Es ergeben sich nun zwei Fälle: – Das Wort überdeckt kein anderes → Es bleibt wo es ist. – Das Wort überdeckt ein anderes → Suche entlang einer Spirale eine freie Position. 7 Urlaub Wasser Sommer Eis Sonne 5 Badesee Fussball 3 4 2 8 6 Heidelberg Visualisierung I – 4. Skalardaten 25 Wortwolke Algorithmus ● ● Man versucht nun sukzessive jedes Wort an der Position anzuzeigen, die vorher bestimmt wurde. Es ergeben sich nun zwei Fälle: – Das Wort überdeckt kein anderes → Es bleibt wo es ist. – Das Wort überdeckt ein anderes → Suche entlang einer Spirale eine freie Position. 7 Urlaub Wasser Sommer Eis Sonne 5 Badesee Fussball 3 4 2 8 6 Heidelberg Visualisierung I – 4. Skalardaten 26 Wortwolke Algorithmus ● Man versucht nun sukzessive jedes Wort an der Position anzuzeigen, die vorher bestimmt wurde. Es ergeben sich nun zwei Fälle: – Das Wort überdeckt kein anderes → Es bleibt wo es ist. – Das Wort überdeckt ein anderes → Suche entlang einer Spirale eine freie Position. 7 Fussball Urlaub Wasser Sommer Eis 3 4 Sonne 5 2 Badesee ● 8 6 Heidelberg Visualisierung I – 4. Skalardaten 27 Wortwolke Algorithmus ● Man versucht nun sukzessive jedes Wort an der Position anzuzeigen, die vorher bestimmt wurde. Es ergeben sich nun zwei Fälle: – Das Wort überdeckt kein anderes → Es bleibt wo es ist. – Das Wort überdeckt ein anderes → Suche entlang einer Spirale eine freie Position. 7 Fussball Urlaub Wasser Sommer Eis 3 4 Sonne 5 2 Badesee ● 8 6 Heidelberg Visualisierung I – 4. Skalardaten 28 Wortwolke Algorithmus ● Man versucht nun sukzessive jedes Wort an der Position anzuzeigen, die vorher bestimmt wurde. Es ergeben sich nun zwei Fälle: – Das Wort überdeckt kein anderes → Es bleibt wo es ist. – Das Wort überdeckt ein anderes → Suche entlang einer Spirale eine freie Position. 7 Urlaub Wasser Sommer Eis 4 3 Fussball Sonne 5 2 Badesee ● 8 6 Heidelberg Visualisierung I – 4. Skalardaten 29 Wortwolke Algorithmus ● Man versucht nun sukzessive jedes Wort an der Position anzuzeigen, die vorher bestimmt wurde. Es ergeben sich nun zwei Fälle: – Das Wort überdeckt kein anderes → Es bleibt wo es ist. – Das Wort überdeckt ein anderes → Suche entlang einer Spirale eine freie Position. 7 Urlaub ● 4 3 Fussball 5 Wasser Sommer Eis 2 Badesee Sonne 8 6 Heidelberg Visualisierung I – 4. Skalardaten 30 Wortwolke Algorithmus ● Man versucht nun sukzessive jedes Wort an der Position anzuzeigen, die vorher bestimmt wurde. Es ergeben sich nun zwei Fälle: – Das Wort überdeckt kein anderes → Es bleibt wo es ist. – Das Wort überdeckt ein anderes → Suche entlang einer Spirale eine freie Position. 7 Urlaub ● 4 3 Fussball 5 Wasser 2 Sommer Eis Badesee Sonne 8 6 Heidelberg Visualisierung I – 4. Skalardaten 31 Wortwolke Algorithmus Es ergeben sich nun zwei Fälle: – Das Wort überdeckt kein anderes → Es bleibt wo es ist. – Das Wort überdeckt ein anderes → Suche entlang einer Spirale eine freie Position. 7 4 3 Fussball 5 Wasser 2 Badesee Sonne Sommer ● Man versucht nun sukzessive jedes Wort an der Position anzuzeigen, die vorher bestimmt wurde. Urlaub ● 8 6 Eis Heidelberg Visualisierung I – 4. Skalardaten 32 Wortwolke Algorithmus Es ergeben sich nun zwei Fälle: – Das Wort überdeckt kein anderes → Es bleibt wo es ist. – Das Wort überdeckt ein anderes → Suche entlang einer Spirale eine freie Position. 7 Eis 4 3 Fussball 5 Wasser 2 Visualisierung I – 4. Skalardaten Badesee Sonne Sommer ● Man versucht nun sukzessive jedes Wort an der Position anzuzeigen, die vorher bestimmt wurde. Urlaub ● 8 Heidelberg 6 33 Wortwolke Algorithmus Es ergeben sich nun zwei Fälle: – Das Wort überdeckt kein anderes → Es bleibt wo es ist. – Das Wort überdeckt ein anderes → Suche entlang einer Spirale eine freie Position. Eis Fussball Wasser Visualisierung I – 4. Skalardaten Badesee Sonne Sommer ● Man versucht nun sukzessive jedes Wort an der Position anzuzeigen, die vorher bestimmt wurde. Urlaub ● Heidelberg 34 Wahrnehmung von Wortwolken ● ● ● ● ● ● Interpretation: Manchen Betrachter fällt die Interpretation der Darstellung schwer. Größe von Wörtern: Große Wörter ziehen mehr Aufmerksamkeit auf sich als kleine Wörter. Dies wird auch beeinflusst durch Anzahl der Buchstaben und nebenstehende Wörter. Position: Wörter im Zentrum der Wortwolke ziehen mehr Aufmerksamkeit auf sich als solche am Rand. Informationsaufnahme: Die meisten Betrachter analysieren eher die Struktur, als dass sie einzelne Wörter lesen. Datenerkundung: Es ist eher schwierig gezielt nach Wörtern in einer Wortwolke zu suchen. [Lohmann, S., Ziegler, J., Tetzlaff, L. Comparison of Tag Cloud Layouts: Task-Related Performance and Visual Exploration, T. Gross et al. (Eds.): INTERACT 2009, Part I, LNCS 5726, pp. 392–404, 2009.] Visualisierung I – 4. Skalardaten 35 Wortwolke – Probleme und Lösungsansätze ● Mangelnde Interaktivität: Wortwolken werden zumeist einmal berechnet und müssen dann so interpretiert werden, wie sie sind. → Erweiterung um eine Zoomfunktion, die es dem Nutzer ermöglicht minimale Häufigkeitswerte anzugeben. (Achtung: Kohärenz muss gegeben bleiben) ● Keine zeitliche Abgrenzung: Die zeitliche Information die in Textdaten steckt, welche über einen langen Zeitraum aufgezeichnet wurden werden normalerweise nicht abgebildet (Häufigkeit wird relativ zum Gesamtbestand berechnet). → Zeitpunkt des ersten Auftritts wird mitgespeichert und in die Skalierung hineingerechnet. (Unterscheidung zwischen All-Time-Favourites und zeitlich begrenzten Häufungen.) ● Keine semantische Anordnung: Begrifflich ähnliche Wörter sind räumlich nicht nah angeordnet. →Verfahren aus der Computerlinguistik einbeziehen um zusammengehörige Wörter zu identifizieren und benachbart anzuordnen. Visualisierung I – 4. Skalardaten 36 Inhaltsverzeichnis 4. Skalardaten (in Tabellenform) 1. Univariate Daten 1. Balkendiagramm 2. Kuchendiagramm 3. Blasendiagramm 4. Wortmosaik (TagCloud) 2. Multivariate Daten und Bäume 1. Datenmosaik (Mosaic Display) 2. Baummosaik (Treemap) 3. Matrixdiagramm 4. Chernoffgesichter 3. Zeitreihen 1. Liniendiagramm 2. FlowMap 3. ThemenFluß Visualisierung I – 4. Skalardaten 37 Datenmosaik (Mosaic Display) ● Daten zu Haar- und Augenfarbe von 592 Studenten Haarfarbe Augenfarbe Schwarz Braun Rot Blond Summe Braun 68 119 26 7 220 Blau 20 84 17 94 215 Bernstein 15 54 14 10 93 Grün 5 29 14 16 64 108 286 71 127 592 Summe Visualisierung I – 4. Skalardaten 38 Datenmosaik (Mosaic Display) Haarfarbe Augenfarbe Schwarz Braun 68 Blau 20 Bernstein 15 Grün 5 Summe 108 Braun 119 84 54 29 286 Visualisierung I – 4. Skalardaten Rot 26 17 14 14 71 Blond 7 94 10 16 127 Summe 220 215 93 64 592 39 Datenmosaik (Mosaic Display) Haarfarbe Augenfarbe Schwarz Braun 68 Blau 20 Bernstein 15 Grün 5 Summe 108 Braun 119 84 54 29 286 Visualisierung I – 4. Skalardaten Rot 26 17 14 14 71 Blond 7 94 10 16 127 Summe 220 215 93 64 592 Schwarz Braun Rot Blond 40 Datenmosaik (Mosaic Display) Haarfarbe Braun 119 84 54 29 286 Rot 26 17 14 14 71 Blond 7 94 10 16 127 Summe 220 215 93 64 592 BernGrün stein Blau Braun Augenfarbe Schwarz Braun 68 Blau 20 Bernstein 15 Grün 5 Summe 108 Visualisierung I – 4. Skalardaten Schwarz Braun Rot Blond 41 Datenmosaik (Mosaic Display) Haarfarbe zu groß zu klein Visualisierung I – 4. Skalardaten Blond 7 94 10 16 127 Braun Rot 26 17 14 14 71 40 Blau Braun 119 84 54 29 286 40 Summe 220 215 93 64 592 unabhängig: P A ∩ B = P A P B abhängig : P A ∩ B = P A∣B P B 47 26 BernGrün stein Augenfarbe Schwarz Braun 68 Blau 20 Bernstein 15 Grün 5 Summe 108 46 20 7 Schwarz Braun Rot Blond 42 Datenmosaik (Mosaic Display) Haarfarbe Augenfarbe Schwarz Braun 68 Blau 20 Bernstein 15 Grün 5 Summe 108 Braun 119 84 54 29 286 Visualisierung I – 4. Skalardaten Rot 26 17 14 14 71 Blond 7 94 10 16 127 Summe 220 215 93 64 592 unabhängig: P A ∩B=P A P B abhängig : P A ∩B=P A∣B P B 43 Datenmosaik (Mosaic Display) Haarfarbe Augenfarbe Schwarz Braun 68 Blau 20 Bernstein 15 Grün 5 Summe 108 Braun 119 84 54 29 286 Visualisierung I – 4. Skalardaten Rot 26 17 14 14 71 Blond 7 94 10 16 127 Summe 220 215 93 64 592 unabhängig: P A ∩ B = P A P B abhängig : P A ∩ B = P A∣B P B 44 Baummosaik (TreeMap) ● ● Baummosaike wurden Anfang der 1990er entwickelt, um die Daten(verteilung) auf einem Computer sichtbar zu machen und so herauszufinden, warum die Festplatte so voll ist oder welche Dateien mehrfach existieren. Wichtige Gesichtspunkte bei der Entwicklung waren: – Das Diagramm sollte den gegebenen Platz vollständig ausnutzen. – Die Baumstruktur von Ordnern sollte erhalten bleiben. – Die Darstellung sollte interaktiv untersucht werden können. – Und es sollte gut aussehen. Visualisierung I – 4. Skalardaten 45 Baummosaik (TreeMap) – Ansätze Visualisierung I – 4. Skalardaten 46 Baummosaik (TreeMap) – Algorithmus ● Wähle ein begrenzendes Rechteck für die Baummosaikdarstellung [M. Bruls 1999] Visualisierung I – 4. Skalardaten 47 Baummosaik (TreeMap) – Algorithmus ● Wähle ein begrenzendes Rechteck für die Baummosaikdarstellung ● Für jedes Rechteck in diesem Level das Kindknoten hat: – Unterteile das Rechteck in so viele Streifen, wie der zugehörige Knoten Kinder hat. – Die Flächenverhältnisse der neuen Rechtecke soll der relativen Größe der Kindknoten entsprechen. – Ist Level eine gerade Zahl unterteile vertikal, sonst horizontal. [M. Bruls 1999] Visualisierung I – 4. Skalardaten 48 Baummosaik (TreeMap) – Algorithmus ● Wähle ein begrenzendes Rechteck für die Baummosaikdarstellung ● Für jedes Rechteck in diesem Level das Kindknoten hat: ● – Unterteile das Rechteck in so viele Streifen, wie der zugehörige Knoten Kinder hat. – Die Flächenverhältnisse der neuen Rechtecke soll der relativen Größe der Kindknoten entsprechen. – Ist Level eine gerade Zahl unterteile vertikal, sonst horizontal. Wiederhole den vorherigen Schritt bis alle Level erreicht sind. [M. Bruls 1999] Visualisierung I – 4. Skalardaten 49 Baummosaik (TreeMap) – Algorithmus ● Wähle ein begrenzendes Rechteck für die Baummosaikdarstellung ● Für jedes Rechteck in diesem Level das Kindknoten hat: ● – Unterteile das Rechteck in so viele Streifen, wie der zugehörige Knoten Kinder hat. – Die Flächenverhältnisse der neuen Rechtecke soll der relativen Größe der Kindknoten entsprechen. – Ist Level eine gerade Zahl unterteile vertikal, sonst horizontal. Wiederhole den vorherigen Schritt bis alle Level erreicht sind. [M. Bruls 1999] Visualisierung I – 4. Skalardaten 50 Baummosaik (TreeMap) – Dice and Slice Algorithmus ● Wähle ein begrenzendes Rechteck für die Baummosaikdarstellung ● Für jedes Rechteck in diesem Level das Kindknoten hat: ● – Unterteile das Rechteck in so viele Streifen, wie der zugehörige Knoten Kinder hat. – Die Flächenverhältnisse der neuen Rechtecke soll der relativen Größe der Kindknoten entsprechen. – Ist Level eine gerade Zahl unterteile vertikal, sonst horizontal. Wiederhole den vorherigen Schritt bis alle Level erreicht sind. [M. Bruls 1999] Visualisierung I – 4. Skalardaten 51 Baummosaik (TreeMap) – Dice and Slice Algorithmus ● Probleme: – Kleine Dateien führen zu stark verzerrten Rechtecken. – Wenn alle Dateien gleich groß sind sieht das Ergebnis aus wie Kästchenpapier. Visualisierung I – 4. Skalardaten 52 Baummosaik (TreeMap) – Squarified Algorithmus ● Squarified Algorithmus [Bruls 1999] – Idee: Versuche Unterteilungen so zu erzeugen, dass die einzelnen Rechtecke ein Seitenverhältnis nahe 1 haben. Quadratisiertes Baummosaik Visualisierung I – 4. Skalardaten Quadratisiertes Kissenmosaik 53 Baummosaik (TreeMap) – Squarified Algorithmus ● Squarified Algorithmus [Bruls 1999] – Idee: Versuche Unterteilungen zu erzeugen, so dass die einzelnen Rechtecke ein Seitenverhältnis nahe 1 haben. Visualisierung I – 4. Skalardaten 54 Baummosaik (TreeMap) – Squarified Algorithmus ● Squarified Algorithmus [Bruls 1999] – Idee: Versuche Unterteilungen zu erzeugen, so dass die einzelnen Rechtecke ein Seitenverhältnis nahe 1 haben. Visualisierung I – 4. Skalardaten 55 Baummosaik (TreeMap) – Squarified Algorithmus Visualisierung I – 4. Skalardaten 56 Matrixdiagramm (MatrixView, HeatMap) A BCDEF G 1 2 3 4 5 6 7 8 9 10 F B B D C Visualisierung I – 4. Skalardaten F A E A 57 Matrixdiagramm (MatrixView, HeatMap) A BCDEF G 1 2 3 4 5 6 7 8 9 10 A BCDEF G 1 2 3 4 5 6 7 8 9 10 F B B D C Visualisierung I – 4. Skalardaten F A E A 58 Matrixdiagramm (MatrixView, HeatMap) AB CDE F G 1 2 3 4 5 6 7 8 9 10 AB CDE F G 1 2 3 4 5 6 7 8 9 10 Visualisierung I – 4. Skalardaten AB CDEF G 1 3 8 2 6 10 4 7 9 5 F F B B D C A E A 59 Matrixdiagramm (MatrixView, HeatMap) AB CDE F G 1 3 8 2 6 10 4 7 9 5 A B C D E F G 1 3 8 2 6 10 4 7 9 5 F F B B D A DCE GB F 1 3 8 2 6 10 4 7 9 5 Visualisierung I – 4. Skalardaten C A E A 60 Matrixdiagramm – Genexpression [Zapapa 2005] Visualisierung I – 4. Skalardaten 61 Matrixdiagramm – Kommunikation Visualisierung I – 4. Skalardaten 62 Chernoffgesichter ● H. Chernoff. The Use of Faces to Represent Points in K-Dimensional Space Graphically, Journal of the American Statistical Association, Vol. 68, No. 342 (Jun., 1973), pp. 361-368 Visualisierung I – 4. Skalardaten 63 Inhaltsverzeichnis 4. Skalardaten (in Tabellenform) 1. Univariate Daten 1. Balkendiagramm 2. Kuchendiagramm 3. Blasendiagramm 4. Wortmosaik (TagCloud) 2. Multivariate Daten und Bäume 1. Datenmosaik (Mosaic Display) 2. Baummosaik (Treemap) 3. Matrixdiagramm 4. Chernoffgesichter 3. Zeitreihen 1. Liniendiagramm 2. FlowMap 3. ThemenFluß Visualisierung I – 4. Skalardaten 64 Liniendiagramm [http://manyeyes.alphaworks.ibm.com/manyeyes] Visualisierung I – 4. Skalardaten 65 Flußdiagramme – Charles Minard Visualisierung I – 4. Skalardaten 66 Flußdiagramme – xkcd.com Visualisierung I – 4. Skalardaten 67 Themenfluss [Filme des Sommers 2007 – Byron 2008] Visualisierung I – 4. Skalardaten 68 Themenfluss Namen mit Jo* Namen mit O* Visualisierung I – 4. Skalardaten Namen mit Lat* [Wattenberg 2005] 69 Gestapelte Graphen – Implementierung ● Für die Gestaltung von gestapelten Graphen gibt es vier wichtige Parameter: – die Gesamtsilhouette – die Ordnung der Variablen – das Labeling – die Farbwahl Visualisierung I – 4. Skalardaten 70 Gestapelte Graphen – Silhouette ● ● Die Silhouette eines gestapelten Graphen wird durch die Basislinie g0 bestimmt, also der Unterkante des Graphen. Für ihre Berechnung gibt es drei Techniken: – ThemeRiver 1 n g0 =− ∑ f i 2 i =1 →Symmetrisch um x-Achse. – Wackler n 1 g0 =− ∑ n−i1 f i n1 i=1 →Kleine Änderungen in den lokalen Ableitungen der einzelnen Ströme. – Gewichtete Wackler n i−1 1 g' 0=− 0.5 f ' i∑ f ' j f i ∑ f i=1 j=1 ∑ i →Kleine Änderungen in den lokalen Ableitungen der einzelnen Ströme. Visualisierung I – 4. Skalardaten 71 Gestapelte Graphen – Ordnung der Variablen ● Einen wichtigen Einfluß auf die Gesamterscheinung hat auch die Ordnung der Variablen. Visualisierung I – 4. Skalardaten 72 Referenzen Die Erklärungen folgen den Beschreibungen in: ● A. C. Telea. Data Visualization: Principles and Practice, A K Peters, Ltd., 2008. ● R. Spence. Information Visualization, Addison Wesley, 2001. ● ● M. Bruls, K. Huizing, J. van Wijk. Squarified Treemaps, In Proceedings of the Joint Eurographics and IEEE TCVG Symposium on Visualization, 1999. Johnson, B. and Shneiderman, B.. Tree-Maps: a space-filling approach to the visualization of hierarchical information structures. In Proceedings of the 2nd Conference on Visualization '91. IEEE Computer Society Press, 284-291, 1991. Visualisierung I – 4. Skalardaten 73