Zufallsauswahl mit R Wie in der Vorlesung erwähnt, werden

Transcrição

Zufallsauswahl mit R Wie in der Vorlesung erwähnt, werden
Statistik – R
2. Übung
SS 2006
Zufallsauswahl mit R
Wie in der Vorlesung erwähnt, werden Zufallsstichproben mit Hilfe eines Computers erzeugt.
In R kann der Befehl sample() verwendet werden, um aus einer Grundgesamtheit zufällige
Elemente auszuwählen. Der sample()-Befehl besitzt folgende Optionen:
x stellt die Grundgesamtheit dar, aus der die Werte gex=c(1,2,3,4,5,6)
zogen werden. Es können sowohl numerische als auch
oder
alphabetische Elemente in der Grundgesamtheit defi-
x=c(“Kopf“,“Zahl“)
niert werden.
size ist die Stichprobengröße. Hier werden also 2 Ele-
size=2
mente aus x gezogen.
replace ist ein Schalter, mit dem gesteuert werden kann
ob ein bereits gezogenes Element erneut gezogen wer-
replace=F/T
den kann (replace=T; Ziehen mit Zurücklegen)
oder ob es nicht zurückgelegt wird (replace=F;
Standardwert).
prob dient zur Definition von Wahrscheinlichkeiten,
mit denen die Elemente der Grundgesamtheit ausgewählt werden. Der Vektor muss die gleiche Länge besitzen wie derjenige zur Definition der Grundgesamtheit
prob=c(0.4,0.6)
x. Die erste Wahrscheinlichkeit bezieht sich auf das erste Element von x, das zweite auf das zweite usw..
Gibt man prob nicht an, wird jedes Element der Grundgesamtheit mit gleicher Wahrscheinlichkeit ausgewählt
(einfache Zufallsauswahl).
(Syntax: sample(x,size,replace=...,prob=...)
Statistik – R
2. Übung
SS 2006
Aufgabe 1:
•Simulieren Sie mit Hilfe des Befehls sample()die Ziehung von 10 Zufallszahlen aus der durchnummerierten Grundgesamtheit von 1 bis 100 (nur ganze Zahlen).
•Simulieren sie Lottozahlen des Samstags-Lotto 6 aus 49.
Aufgabe 2:
•Eine
statistische Untersuchung soll mit Hilfe einer Stichprobe von 100 Personen den Anteil der
Fahrradfahrer in der Göttinger Bevölkerung schätzen. Dazu ist jedem der 123564 Einwohner eine
Zahl zugeordnet worden. Wie kann mit Hilfe von R eine einfache Zufallsstichprobe erzeugt
werden?
Statistik – R
2. Übung
WS 2006/07
Histogramme / Säulendiagramme
Zur graphischen Darstellung unter R bietet sich neben dem bereits bekannten plot()-Befehl noch der hist()-Befehl und der boxplot()-Befehl an.
Der Befehl hist(x) erstellt ein Histogramm der unter x gespeicherten Daten im
„Graphics“-Fenster. Werden keine zusätzlichen Optionen in der Klammer angegeben, verwendet R absolute Werte bzw. Häufigkeiten und vorgegebene Klasseneinteilungen.
Für den hist()-Befehl bieten sich deswegen folgende Optionen an:
Bei prob=F (Standardwert) werden absolute Häufigprob=T/F
keiten verwendet, während bei prob=T relative
Häufigkeiten benutzt werden.
Mit der Option breaks lassen sich die Klassenein-
breaks=c(3,5,7,9,10)
teilungen beliebig einstellen. Dabei müssen die Klassengrenzen als Vektor (c(a,b,c,...)) angegeben
werden.
Hiermit wird bestimmt, ob das Histogramm im „Graphics“-Fenster dargestellt werden soll (plot=T; Stan-
plot=T/F
dardwert), oder ob R lediglich die Klasseneinteilung
und die entsprechenden Häufigkeiten als Zahlen ausgeben soll (plot=F).
(Syntax: hist(x,prob=...,breaks=c(...),plot=... )
(Weitere Informationen dazu siehe Kurzeinführung in R, Seite 13)
Statistik – R
2. Übung
WS 2006/07
Aufgabe 1:
In der Datei „Gewicht.txt“ sind die Datensätze Gewicht_m und Gewicht_w (Gewicht von männlichen und weiblichen Studenten einer bestimmten Vorlesung) abgespeichert. Diese sollen mit Hilfe
von R näher untersucht werden:
•Dazu muss die Datei zunächst eingelesen werden. Dazu benötigt man den Befehl source.
Syntax: source(“ Link ”)
•Nun sollen die Daten der männlichen Studenten in einem Histogramm dargestellt werden. R gibt
eine Klasseneinteilung vor; es ist aber auch möglich, die Klassengrößen zu variieren.
•Als nächstes sollen die Häufigkeiten in den einzelnen Klassen bestimmt werden.
•Die nächste Teilaufgabe besteht darin, statistische Kennzahlen wie Lage- und Streuungsmaße zu
bestimmen. Dazu verwendet man entweder die Befehle mean(), var() oder den Befehl summary().
•Erstellen Sie einen Boxplot, in dem beide Datensätze verglichen werden können.
Aufgabe 2:
Die folgenden diskreten Daten sind mit Hilfe eines Fragebogens in einer Großübung erhoben worden und geben die Schuhgröße der 100 Studierenden dieser Veranstaltung an.
Schuhgröße x
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
Häufigkeit y
1
3
7
10
12
11
12
10
9
8
8
4
3
1
1
Geben Sie die Daten zunächst zeilenweise ein und speichern Sie diese unter x bzw. y . Stellen Sie
die relativen Häufigkeiten dann in einem Säulendiagramm mithilfe des Befehls plot grafisch dar.