Wenn Sie in R ein Projekt erstellen, setzen Sie Funktionen ein, die sich in für bestimmte Aufgabenbereiche konzipierten Packages befinden. Auf dieser Schummelseite finden Sie einige Informationen zu diesen Funktionen.
INTERAKTIVE APPS
Mit den R-Packages shiny und shinydashboard können Sie interaktive Anwendungen entwickeln. Hier ist eine Auswahl der Funktionen dieser Packages.
Funktionen im Package shiny
Funktion
Was die Funktion berechnet
shinyApp()
Verbindet eine Benutzerschnittstelle und einen Server zu einer shiny-App
fluidPage()
Erstellt eine Browserseite, deren Breite sich an die Breite des Browsers anpasst
sliderInput()
Definiert einen Schieberegler und dessen Eingabe für eine shiny-Benutzeroberfläche
plotOutput()
Reserviert auf einer shiny-Benutzeroberfläche Platz für ein Diagramm
renderPlot()
Gibt ein Diagramm auf einer shiny-Benutzeroberfläche aus
textOutput()
Reserviert auf einer shiny-Benutzeroberfläche Platz für Textausgabe
renderText()
Gibt Text auf einer shiny-Benutzeroberfläche aus
selectInput()
Erstellt auf einer shiny-Benutzeroberfläche ein Dropdownmenü
Funktionen im Package shinyDashboard
Funktion
Was die Funktion auf einer shinyDashboard-Seite erstellt
dashboardPage()
Die Seite selbst
dashboardHeader()
Titelleiste der Seite
dashboardSidebar()
Seitenleiste der Seite
sidebarMenu()
Menü für die Seitenleiste
menuItem()
Menüeintrag
dashboardBody()
Körper (body) der Seite
fluidRow()
Zeile variabler Breite innerhalb des Körpers des Dashboards
box()
Kästchen innerhalb einer Zeile
valueBoxOutput()
Reserviert Platz für eine Valuebox
renderValueBox()
Reaktiver Kontext für eine Valuebox
valueBox()
Eine Valuebox
column()
Spalte innerhalb einer Zeile variabler Breite (fluidRow)
tabBox()
Registerkarte für eine Seite im Registerkartenformat
MASCHINELLES LERNEN MIT R
Maschinelles Lernen (ML) ist ein sehr aktuelles Thema. R stellt eine Reihe von Packages und Funktionen für das maschinelle Lernen zur Verfügung. Hier ist eine Auswahl:
Packages und Funktionen für maschinelles Lernen
Package
Funktion
Was die Funktion macht
rattle
rattle()
Öffnet das Fenster von Rattle mit der grafischen Benutzeroberfläche
rpart
rpart()
Erstellt einen Entscheidungsbaum
rpart.plot
prp()
Zeichnet einen Entscheidungsbaum
randomForest
randomForest()
Erstellt einen Random Forest aus Entscheidungsbäumen
rattle
printRandomForests()
Gibt die Regeln der einzelnen Entscheidungsbäume eines Random Forest aus
e1071
svm()
Trainiert eine Support Vector Machine
e1071
predict
Erstellt auf Basis einer Support Vector Machine einen Vektor mit prognostizierten Klassifikationen
KERNLAB
ksvm()
Trainiert eine Support Vector Machine
R-Basis-Paket
kmeans()
Erstellt eine K-Means-Clusteranalyse
nnet
nnet()
Erzeugt ein neuronales Netz mit einer verdeckten Schicht
NeuralNetTools
plotnet()
Zeichnet ein neuronales Netz
nnet
Predict()
Erstellt auf Basis eines neuronalen Netzes einen Vektor mit Prognosen
GROßE DATENSÄTZE
Besonders im Hinblick auf statistische Analyse bietet R eine Vielzahl von Packages und Funktionen, um mit großen – wenn nicht sogar riesigen – Datenmengen umzugehen. Diese Auswahl ist nur die Spitze der Spitze des Eisbergs.
Packages und Funktionen für die Untersuchung von Datenbanken
Package
Funktion
Was die Funktion macht
didrooRFM
findRFM()
Führt eine RFM-Analyse für eine Datenbank mit Umsatztransaktionen durch
vcd
assocstats()
Berechnet Statistiken für Tabellen mit kategorischen Daten
vcd
assoc()
Erstellt eine Grafik, die Abweichungen von der Unabhängigkeit in einer Tabelle mit kategorischen Daten darstellt
tidyverse
glimpse()
Stellt eine Teilansicht eines Datenframes zur Verfügung, bei dem die Spalten der Daten auf dem Bildschirm als Zeilen dargestellt werden
plotrix
std.error()
Berechnet den Standardfehler des Mittelwerts
plyr
inner_join()
Kombiniert Datensätze
lubridate
wday()
Gibt den Wochentag eines Datums zurück
lubridate
ymd()
Gibt ein Datum im R-Datumsformat zurück
LANDKARTEN UND BILDER
Hier sind ein paar Packages und Funktionen, mit denen Sie in R erste Schritte beim Erstellen von Landkarten und der Bildbearbeitung gehen können.
Packages und Funktionen für die Erstellung von Landkarten und die Bildbearbeitung
Package
Funktion
Was die Funktion macht
maps
map_data()
Gibt einen Datenframe mit Breiten- und Längengraden zurück
ggmaps
geocode()
Gibt Breiten- und Längengrad eines benannten Ortes zurück
magick
image_read()
Liest ein Bild in R ein und wandelt es in ein magick-Objekt um
magick
image_resize()
Ändert die Größe eines Bildes
magick
image_rotate()
Dreht ein Bild
magick
image_flip()
Spiegelt ein Bild horizontal
magick
image_flop()
Spiegelt ein Bild vertikal
magick
image_annotate()
Fügt Text in ein Bild ein
magick
image_background()
Legt den Hintergrund für Bilder fest
magick
image_composite()
Kombiniert Bilder
magick
image_morph()
Überführt (morpht) ein Bild graduell in ein anderes
magick
image_animate()
Stellt eine Animation im Viewer-Fenster von RStudio dar
magick
image_apply()
Wendet auf alle Frames einer animierten GIF-Datei eine Funktion an
magick
image_write()
Speichert eine Animation als wiederverwendbare GIF-Datei
R in Projekten anwenden für Dummies
Bibliografische Information der Deutschen Nationalbibliothek
Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar.
Wiley, the Wiley logo, Für Dummies, the Dummies Man logo, and related trademarks and trade dress are trademarks or registered trademarks of John Wiley & Sons, Inc. and/or its affiliates, in the United States and other countries. Used by permission.
Wiley, die Bezeichnung »Für Dummies«, das Dummies-Mann-Logo und darauf bezogene Gestaltungen sind Marken oder eingetragene Marken von John Wiley & Sons, Inc., USA, Deutschland und in anderen Ländern.
Das vorliegende Werk wurde sorgfältig erarbeitet. Dennoch übernehmen Autoren und Verlag für die Richtigkeit von Angaben, Hinweisen und Ratschlägen sowie eventuelle Druckfehler keine Haftung.
Coverfoto: monsitj/stock.adobe.com
Korrektur: Isolde Kommer
Print ISBN: 978-3-527-71537-4
ePub ISBN: 978-3-527-81798-6
mobi ISBN: 978-3-527-81797-9
Über den Autor
Joseph Schmuller hat langjährige Erfahrungen in der Informationstechnologie, und zwar sowohl an Hochschulen als auch in Unternehmen. Er hat auch mehrere Informatikbücher geschrieben, unter anderem »Teach Yourself UML in 24 Hours« und »Statistik mit Excel für Dummies«, das bereits in der vierten Auflage erschienen ist, sowie »Statistik mit R für Dummies«. Er erstellte Online-Kurse für das Bildungsunternehmen Lynda.com, das inzwischen zu Microsoft gehört, und hat zahlreiche Artikel zu fortgeschrittenen IT-Technologien verfasst. Von 1991 bis 1997 war er Chefredakteur der Zeitschrift PC AI.
Er ist ehemaliges Mitglied der American Statistical Association und hat unter anderem an der University of North Florida Statistik gelehrt. Er besitzt folgende Abschlüsse im Fachgebiet Psychologie: Bachelor of Science (B. S.) vom Brooklyn College, Master of Arts (M. A.) von der University of Missouri-Kansas City und Doctor of Philosophy (Ph. D.) von der University of Wisconsin. Joseph Schmuller lebt mit seiner Familie in Jacksonville, Florida, wo er eine Forschungsprofessur an der University of North Florida innehat.
Widmung
Für den fantastischen Jerry Sheridan, der meine Masterarbeit betreute und der mir vor sehr langer Zeit einiges über Projekte beigebracht hat …
Einführung
Vielleicht sind Sie wie ich der Meinung, dass der beste Weg, etwas zu lernen, darin besteht ist, es zu tun. Lesen Sie nicht nur einfach über etwas – praktizieren Sie es. Wenn Sie Bauarbeiter sein wollen, dann bauen Sie. Wenn Sie Autor sein wollen, dann schreiben Sie. Wenn Sie Tischler sein wollen, dann tischlern Sie.
Dieses Buch basiert auf dem Prinzip »Learning by Doing«. Mein Ziel ist, dass Sie Ihre R-Kenntnisse und Fähigkeiten erweitern, in dem Sie R verwenden, um Projekte aus verschiedenen Bereichen zu erstellen. Gleichzeitig lernen Sie etwas über die Bereiche und Wissensgebiete, aus denen die Projekte stammen.
Trotz dieser noblen Absichten kann ein Buch wie dieses in eine Falle stolpern. Es kann schnell zu einem Kochbuch werden: Verwenden Sie dieses Package, verwenden Sie jene Funktion, erstellen Sie eine Grafik – und Simsalabim ist es Zeit, weiterzugehen.
Ein solches Buch wollte ich nicht schreiben. Stattdessen führen sämtliche Kapitel ab Teil 2 (das ist die Stelle, an der es mit den Projekten losgeht) Sie nicht einfach nur durch die Projekte. Stattdessen erhalten Sie zuerst etwas Hintergrundwissen zum Themenbereich und dann arbeiten Sie (in den meisten Kapiteln) ein kleines, übersichtliches Projekt aus diesem Bereich durch, damit Sie erste Erfahrungen sammeln können.
Damit jedoch nicht genug: Am Ende jedes Kapitels finden Sie einen Projektvorschlag, der Sie ermutigen soll, das neu erworbene Wissen anzuwenden. Für alle diese Projekte liefere ich Ihnen gerade so viele Informationen, dass Sie direkt loslegen können. (Falls nötig, gehören hierzu auch Tipps über mögliche Stolperfallen.)
Im Verlauf des Buches finden Sie außerdem Schnelle Projektvorschläge. Diese basieren auf kleinen Veränderungen an Projekten, die Sie bereits fertiggestellt haben, und stellen zusätzliche Herausforderungen an Ihre zunehmenden Fähigkeiten dar.
Eines noch: Jeder der behandelten Themenbereiche könnte der Ausgangspunkt für ein eigenes Buch sein, und daher kann ich immer nur an der Oberfläche kratzen. Kapitel 17 verweist auf Ressourcen mit weiterführenden Informationen.
Über dieses Buch
Ich habe dieses Buch in sechs Teile aufgeteilt.
Teil 1: Das Handwerkszeug
In diesem Teil dreht sich alles um R und RStudio. Ich erörtere R-Funktionen, Strukturen und Packages. Außerdem zeige ich Ihnen, wie Sie eine Vielzahl von Diagrammtypen erstellen.
Teil 2: Interaktion mit dem Anwender
Die Projekte beginnen in Teil 2, in dem Sie lernen, interaktive Anwendungen zu erstellen, die direkt auf Benutzereingaben reagieren. Ich stelle das Package shiny vor, das Webbrowser unterstützt und das Package shinydashboard, mit dem Sie Dashboards erstellen können.
Teil 3: Maschinelles Lernen
Dies ist der umfangreichste Teil des Buches. Zuerst erzähle ich Ihnen etwas über das Machine Learning Repository der University of California-Irvine, in dem Sie die Datensätze für die Projekte finden. Außerdem stelle ich Ihnen das Package rattle vor, mit dem Sie Anwendungen für das maschinelle Lernen erstellen können. Die Projekte behandeln Entscheidungsbäume, Random Forests, Support Vector Machines, K-Means-Clustering und neuronale Netzwerke.
Teil 4: Große Datensätze
Die beiden Projekte in Teil 4 untersuchen weit größere Datensätze als die, denen Sie in den vorderen Teilen des Buches begegnen. Das erste Projekt ist eine Analyse der Kundensegmentierung von mehr als 300.000 Kunden eines Online-Shops. Eine darauf aufbauende Analyse setzt Techniken des maschinellen Lernens ein.
Im zweiten Projekt analysieren Sie einen Datensatz mit Daten zu mehr als 500.000 Flügen.
Teil 5: Karten und Bilder
Auch in Teil 5 gibt es zwei Projekte. Das erste Projekt stellt die Lage (neben anderen Informationen) der Flughäfen eines der US-Bundesstaaten auf einer Karte dar. Das zweite Projekt zeigt Ihnen, wie Sie eine animierte Grafik und eine statische, nicht animierte Grafik miteinander kombinieren können.
Teil 6: Der Top-Ten-Teil
Das erste Kapitel in Teil 6 liefert Informationen über nützliche Packages, die bei Ihren zukünftigen Projekten hilfreich sein können. Im zweiten Kapitel erfahren Sie, wo Sie mehr über die Themenbereiche dieses Buches lernen können.
Was Sie nicht lesen müssen
In jedem Lehrbuch finden Sie jede Menge Informationen. Da ist auch dieses Buch keine Ausnahme. Ich habe versucht, nur Nützliches in das Buch aufzunehmen. Das ist mir jedoch nicht immer gleich gut gelungen. Wenn Sie also an einem Thema nicht besonders interessiert sind, brauchen Sie die Abschnitte, die mit dem Symbol »Vorsicht Technik!« gekennzeichnet sind, und die grauen Kästen nicht zu lesen.
Törichte Annahmen über den Leser
Bei diesem Buch setze ich Folgendes voraus:
Sie kennen sich mit Windows oder dem Mac aus. Ich werde nicht erläutern, wie man auf Elemente zeigt, klickt, etwas auswählt und so weiter.
Sie können R und RStudio installieren (in Kapitel 1 zeige ich Ihnen, wie das geht) und damit die Beispiele nachvollziehen. Ich verwende die Windows-Version von RStudio. Sie sollten aber nicht auf Probleme stoßen, wenn Sie einen Mac verwenden.
Symbole, die in diesem Buch verwendet werden
Wie in allen Büchern der Dummies-Reihe finden Sie auch in diesem Buch überall Symbole. Dabei handelt es sich um kleine Bildchen am Seitenrand, anhand derer Sie erkennen können, worum es in dem Abschnitt daneben geht.
Dieses Symbol ist das Zeichen für einen Tipp, einen Hinweis oder eine einfache Lösung, um Ihnen die Arbeit zu erleichtern.
Dieses Symbol ist ein Zeichen für zeitlose Weisheiten, die Sie auch lange, nachdem Sie das Buch gelesen haben, noch brauchen werden.
Achten Sie auf die Informationen neben diesem Symbol. Es weist darauf hin, dass Sie etwas besser nicht tun sollten, wenn Sie Ihre Arbeit nicht zunichtemachen wollen.
Wie bereits im Abschnitt »Was Sie nicht lesen müssen« weiter vorne erwähnt, steht dieses Symbol für Material, das Sie überspringen können, wenn Ihnen der Inhalt zu technisch vorkommt. (Ich habe versucht, dies auf ein Minimum zu beschränken.)
Wie es weitergeht
Sie können mit dem Lesen des Buchs an jeder beliebigen Stelle beginnen, aber hier sind noch ein paar Tipps. Sie möchten die Grundlagen von R und RStudio kennenlernen? Alles, was Sie dazu brauchen, finden Sie in den Kapiteln 1 und 2. Sie möchten lieber mit der Erstellung von Diagrammen beginnen? Dann schlagen Sie Kapitel 3 auf. Alles andere finden Sie im Inhaltsverzeichnis oder im Stichwortverzeichnis.
Wenn Sie ein Buch lieber von vorne nach hinten lesen, dann blättern Sie bitte um …