Cover Page

Inhaltsverzeichnis

Data Science für Dummies – Schummelseite

Titel

Impressum

Über die Autorin

Vorwort

Einleitung

Über dieses Buch

Törichte Annahmen

In diesem Buch verwendete Symbole

Wo Sie starten

Teil I: Mit Data Science beginnen

Kapitel 1: Bei Data Science durchblicken

Schauen, wer von Data Science Gebrauch machen kann

Die Teile des Data-Science-Puzzles betrachten

Daten sammeln, abfragen und bearbeiten

Von der Mathematik und Statistik Gebrauch machen

Programmierung: Teil des Spiels

Data Science in Ihrem Fachgebiet anwenden

Einblicke kommunizieren

Die Grundlagen schaffen

Mögliche Vorgehensweisen klären

Die offensichtlichen Gewinne ermitteln

Kapitel 2: Data Engineering: Infrastruktur erkunden

Big Data definieren

Mit dem Datenvolumen ringen

Die Datengeschwindigkeit handhaben

Die Datenvielfalt behandeln

Den Datenwert erzeugen

Big-Data-Datenquellen bestimmen

Den Unterschied zwischen Data Science und Data Engineering verstehen

Data Science definieren

Data Engineering definieren

Ein Vergleich zwischen Data Scientists und Data Engineers

Datensätze mit MapReduce und Hadoop reduzieren

In MapReduce einarbeiten

Hadoop verstehen

Alternative Lösungen für Probleme mit Big Data betrachten

Die Echtzeitverarbeitung einführen

Massenparallelrechner verwenden

In NoSQL-Datenbanken einarbeiten

Data Engineering im Einsatz – Eine Fallstudie

Die Geschäftsherausforderung erkennen

Geschäftsprobleme mit Data Engineering lösen

Erfolge aufweisen

Kapitel 3: Data Science in Unternehmen und Industrie einsetzen

Datengesteuerte Einblicke in die Geschäftsabläufe einbinden

Von geschäftsbezogener Data Science profitieren

Datenanalyse zur Umwandlung von Rohdaten in umsetzbare Einsichten

Etwas mit den Geschäftsdaten unternehmen

Business Intelligence und Data Science unterscheiden

Business Intelligence definieren

Geschäftsbezogene Data Science definieren

Die Hauptunterschiede zwischen BI und geschäftsbezogener Data Science zusammenfassen

Wissen, wen man holt, um die Arbeit zu erledigen

Data Science im Geschäftsleben: Eine datengesteuerte Erfolgsgeschichte

Teil II: Die Bedeutung Ihrer Daten mit Data Science erkennen

Kapitel 4: Wahrscheinlichkeit und Statistik einführen

Die grundlegenden Konzepte der Wahrscheinlichkeit vorstellen

Die Beziehung zwischen Wahrscheinlichkeit und induktiver Statistik

Zufallsvariablen, Wahrscheinlichkeitsverteilungen und Erwartungswerte verstehen

Gängige Wahrscheinlichkeitsverteilungen kennenlernen

Die lineare Regression einführen

Einfache Modelle zur linearen Regression

Lernen, eine angepasste Regressionsgerade zu erstellen

Die Methode der kleinsten Quadrate

Simulationen

Mit Simulationen Eigenschaften von Testgrößen beurteilen

Mit der Monte-Carlo-Simulation einen Schätzwert beurteilen

Die Zeitreihenanalyse einführen

Muster in Zeitreihen verstehen

Die univariate Varianzanalyse modellieren

Kapitel 5: Clustering-Verfahren und Klassifikation

Die Grundlagen von Cluster-Verfahren und Klassifikation einführen

Clustering-Algorithmen kennenlernen

Klassifikations-Algorithmen kennenlernen

Metriken kennenlernen

Cluster in Ihren Daten erkennen

Mit dem k-Means-Algorithmus Clusteranalyse betreiben

Cluster mit der Kerndichteschätzung abschätzen

Hierarchische Algorithmen und Algorithmen zur sortierten Nachbarschaft einsetzen

Daten mit Entscheidungsbäumen und Random-Forest-Algorithmen kategorisieren

Kapitel 6: Clusteranalyse und Klassifikation mit Nearest-Neighbor-Verfahren

Die Bedeutung der Daten mit Nearest-Neighbor-Analysen erkennen

Die Wichtigkeit der Clusteranalyse und der Klassifikation erkennen

Daten mit Gemittelter-Nearest-Neighbor-Algorithmen klassifizieren

Verstehen, wie der Gemittelter-Nearest-Neighbor-Algorithmus funktioniert

Die Klassifikation mit k-Nearest-Neighbor-Algorithmen

Die Arbeitsweise des k-Nearest-Neighbor-Verfahrens verstehen

Wissen, wann man den k-Nearest-Neighbor-Algorithmus einsetzt

Gängige Anwendungen von k-Nearest-Neighbor-Algorithmen erkunden

Mit den Abständen der nächsten Nachbarn Schlussfolgerungen aus Datenpunkt-Mustern ziehen

Probleme der realen Welt mit Nearest-Neighbor-Algorithmen lösen

k-Nearest-Neighbor-Algorithmen im Einsatz erleben

Gemittelter-Nearest-Neighbor-Algorithmen im Einsatz erleben

Kapitel 7: Mathematische Modellierung in der Datenwissenschaft

Die multikriterielle Entscheidungsanalyse (MCA) einführen

Die MCA im Einsatz betrachten und verstehen

Die Fuzzy-MCA anwenden

Wissen, wann und wie man die multikriterielle Entscheidungsanalyse einsetzt

Die Verwendung von numerischen Methoden in der Data Science

Über Taylorpolynome

Mit der Bisektion Funktionen halbieren

Mathematische Modellierung mit Markov-Ketten und stochastischen Methoden

Kapitel 8: Mit der Statistik Geodaten modellieren

Oberflächen aus Raumpunktdaten vorhersagen

Die Parameter x, y und z bei Geodaten verstehen

Kriging einführen

Automatische Kriging-Interpolationen

Modelle zur explizit definierten Kriging-Interpolation wählen und verwenden

Sich intensiver mit dem Kriging beschäftigen

Das beste Schätzverfahren beim Kriging wählen

Zur Bestimmung des besten Modells das Residuum untersuchen

Ihre Wahlmöglichkeiten bei Kriging-Verfahren kennen

Trendanalyse von Oberflächen

Teil III: Datenvisualisierungen mit klaren Aussagen

Kapitel 9: Den Prinzipien der Datenvisualisierung entsprechen

Die Arten der Visualisierung verstehen

Entscheidungsträgern die Geschichte hinter den Daten erzählen

Daten für Analytiker zur Geltung bringen

Datenkunst für Aktivisten

Ihre Zielgruppe in den Blick nehmen

Schritt 1: Ideenfindung für Steffi

Schritt 2: Bestimmen Sie Ihr Ziel

Schritt 3: Die für Ihr Ziel zweckmäßigste Visualisierungsart wählen

Das zweckmäßigste Design wählen

Mit dem Design eine analysierende und präzise Reaktion hervorrufen

Mit dem Design eine stark emotionale Reaktion hervorrufen

Wissen, wann man einen Zusammenhang darstellen muss

Daten verwenden, um Zusammenhänge herzustellen

Sinnzusammenhänge über Beschriftung herstellen

Grafische Elemente zur Herstellung von Sinnzusammenhängen verwenden

Wissen, wann man überzeugen muss

Eine passende Art von Grafik wählen

Standarddiagramme erklären

Vergleichende Grafiken erkunden

Statistische Diagramme erkunden

Topologische Strukturen erkunden

Räumliche Darstellungen und Karten erkunden

Ihre Grafik auswählen

Betrachten der Fragen

Berücksichtigung der Nutzer und der Medien

Einen letzten Blick auf die Arbeit werfen

Kapitel 10: D3.js zur Visualisierung von Daten verwenden

Einführung in die Bibliothek D3.js

Wissen, wann man D3.js verwenden sollte (und wann nicht)

Der Einstieg in D3.js

HTML und DOM einführen

JavaScript und SVG einführen

Cascading Style Sheets (CSS) einführen

Webserver und PHP einführen

Fortgeschrittene Konzepte und Methoden in D3.js verstehen

Kettensyntax kennenlernen

Skalen kennenlernen

Übergänge und Interaktionen kennenlernen

Kapitel 11: Webbasierte Anwendungen zur Daten-Visualisierung

Kollaborativ genutzte Visualisierungsplattformen

Mit Watson Analytics von IBM arbeiten

Visualisieren und Kollaborieren mit Plotly

Geodaten mit geografischen Tools visualisieren

Schöne Karten mit OpenHeatMap herstellen

Das Erstellen von Karten und die Untersuchung von Geodaten mit CartoDB

Webbasierte Open-Source-Plattformen zur Datenvisualisierung

Mit Google Fusion Tables schöne Grafiken erstellen

iCharts zur webbasierten Visualisierung verwenden

RAW zur webbasierten Visualisierung verwenden

Wissen, wann man Infografiken verwendet

Mit Infogr.am fetzige Infografiken erstellen

Fetzige Grafiken mit Piktochart erstellen

Kapitel 12: Die besten Techniken zum Erstellen eines Dashboards

Sich an der Zielgruppe orientieren

Mit dem großen Ganzen beginnen

Die Einzelheiten gut hinbekommen

Ihren Entwurf testen

Kapitel 13: Aus Geodaten Karten erstellen

In die Grundlagen von GIS einsteigen

Geodatenbanken verstehen

Dateiformate in GIS verstehen

Kartennetzentwürfe und Koordinatensysteme verstehen

Geodaten analysieren

Geodaten abfragen

Buffering und Nachbarschaftsfunktionen

Analysen basierend auf der Überlagerung einzelner Layer

Reklassifikation von Geodaten

Mit der Open-Source-Software QGIS arbeiten

Die Benutzeroberfläche von QGIS kennenlernen

In QGIS einen Vektorlayer hinzufügen

Anzeige der Daten in QGIS

Teil IV: Programmieren und Data Science

Kapitel 14: Python für Data Science verwenden

Die grundlegenden Konzepte von Python verstehen

Datentypen in Python

Schleifen in Python verwenden

Funktionen und Klassen kennenlernen

Enge Bekanntschaft mit einigen nützlichen Python-Bibliotheken schließen

Die Bibliothek NumPy

Mit SciPy vertraut werden

Zur Visualisierung von Daten MatPlotLib einbinden

Die Verwendung von Python zur Analyse von Daten – ein Beispiel

Python auf Mac OS und Windows installieren

CSV-Dateien laden

Einen gewichteten Mittelwert berechnen

Trendlinien zeichnen

Kapitel 15: Das frei zugängliche R in der Data Science benutzen

Die grundlegenden Konzepte einführen

Die grundlegenden Begriffe in R kennenlernen

Tiefer in Funktionen und Operatoren eintauchen

Iterieren in R

Beobachten, wie Objekte arbeiten

Vorschau auf die Pakete von R

Einige gefragte Pakete zur statistischen Analyse

Visualisierung, Kartierung und grafische Darstellung in R

Kapitel 16: SQL in Data Science verwenden

Mit SQL beginnen

Relationale Datenbanken und SQL in den Griff bekommen

Datenbanken entwerfen

SQL und seine Funktionen in Data Science verwenden

SQL, R, Python und Excel in Ihre Data-Science-Strategie integrieren

SQL-Funktionen in Data Science verwenden

Kapitel 17: Anwendungssoftware für Data Science

Das Leben mit Excel vereinfachen

Mit Excel die Daten schnell kennenlernen

Umformatieren und Zusammenfassen mit Pivot-Tabellen

Aufgaben von Excel mit Makros automatisieren

KNIME zur fortgeschrittenen Analyse von Daten verwenden

Die Kundenabwanderung mit KNIME verringern

Das Beste aus Daten sozialer Netzwerke machen

KNIME für eine ökologisch gute Verwaltung verwenden

Teil V: Probleme aus der Praxis mit Data Science lösen

Kapitel 18: Data Science im Journalismus verwenden

Die sechs Ws erklären

Überprüfen, wer

Überlegen, warum Ihr Artikel von Bedeutung ist

Zu dem kommen, was Sie sagen wollen

Wann ist der richtige Zeitpunkt?

Überlegen, wo Ihre Geschichte eine Rolle spielt

Überlegen, wie Sie Ihre Reportage entwickeln, formulieren und präsentieren

Daten für Ihre Reportage sammeln

Screen Scraping für Ihre Reportage nutzen

Alert-Dienste einsetzen

Die Geschichte hinter den Daten entdecken und erzählen

Außergewöhnliche Trends und Ausreißer entdecken

Den Kontext untersuchen, um die Signifikanz der Daten zu verstehen

Die Geschichte durch Ihre Visualisierung unterstreichen

Fesselnde und klar umrissene Reportagen erstellen

Den Datenjournalismus lebendig werden lassen: Der Artikel »Schwarze Kassen« in der Washington Post

Kapitel 19: Data Science und die Umwelt miteinander verbinden

Modellierung der Wechselwirkung zwischen Mensch und Umwelt anhand ökologischer Intelligenz

Die zu lösenden Probleme betrachten

Ökologische Intelligenz definieren

Wichtige Organisationen kennenlernen, die im Bereich der ökologischen Intelligenz arbeiten

Mit ökologischer Intelligenz positiven Einfluss ausüben

Natürliche Ressourcen im Urzustand modellieren

Die Modellierung von natürlichen Ressourcen erkunden

Sich an Data Science versuchen

Modellierung natürlicher Ressourcen zur Lösung von Umweltproblemen

Mit der Geostatistik Umweltbedingungen abhängig vom Raum vorhersagen

Mit der vorhersagenden Geoanalyse Umweltfragen behandeln

Den Anteil der Data Science erläutern

Die Geostatistik zur Behandlung von Umweltthemen verwenden

Kapitel 20: Mit Data Science das Wachstum des E-Commerce vorantreiben

Daten verstehen und für das Wachstum des E-Commerce einsetzen

Optimierung der beim Internethandel verwendeten Systeme

Analysemethoden kennenlernen

Ihre Strategien überprüfen

Segmentierung und Zielgruppenansprache tragen zum Erfolg bei

Kapitel 21: Data Science zur Beschreibung und Vorhersage krimineller Aktivitäten einsetzen

Räumliche Analyse zur Vorhersage und Verfolgung von Verbrechen

Die Kartografierung von Verbrechen mit GIS-Technologien

Einen Schritt weitergehen: Die Standortvorhersage

Komplexe räumliche Statistik zum besseren Verständnis von Verbrechen verwenden

Die Probleme untersuchen, die mit der Verwendung von Data Science zur Analyse von Verbrechen verbunden sind

Die Grundrechte berücksichtigen

Gegen technische Probleme kämpfen

Teil VI: Der Top-Ten-Teil

Kapitel 22: Zehn fantastische frei zugängliche Datenquellen

Sich in Data.gov vertiefen

Die frei zugänglichen Daten in Kanada ausprobieren

Die Webseite data.gov.uk untersuchen

Das Datenportal für Deutschland kennenlernen

Daten der NASA kennenlernen

Auf die Daten der Weltbank zugreifen

Sich mit Knoema Data bekannt machen

Sich bei Quandl Data in die Schlange stellen

Die Exversion-Daten erkunden

OpenStreetMap zur Kartierung verwenden

Kapitel 23: Etwa zehn freie Tools und Anwendungen zur Data Science

Das Erstellen individualisierter webbasierter Visualisierungen mit freien R-Paketen

Mit RStudio glänzen

rCharts zum Visualisieren verwenden

Mit rMaps kartieren

Weitere Tools zum Auslesen, Sammeln und Verarbeiten von Daten

Daten mit import.io extrahieren

Mit ImageQuilts Bilder sammeln

Sich Daten mit DataWrangler beschaffen

Weitere Tools zum Untersuchen von Daten testen

Über Tableau Public reden

Mit Gephi vorankommen

Maschinelles Lernen mit WEKA

Weitere webbasierte Visualisierungstools testen

Mit Weave arbeiten

Die Visualisierungsangebote von Knoema testen

Stichwortverzeichnis

Wiley End User License Agreement

Data Science für Dummies – Schummelseite

Cover Page

Cover Page

Title Page

Über die Autorin

Lillian Pierson ist selbstständige Datenwissenschaftlerin und Umwelttechnikerin. Sie ist die Gründerin von Data-Mania (www.data-mania.com), einem neu gegründeten Unternehmen, das sich auf Netzanalyse, Dienstleistungen im Bereich des datengetriebenen Wachstums, Journalismus und Fortbildung im Bereich der Datenwissenschaften konzentriert. Neben ihrer technischen und unternehmerischen Tätigkeit als (Daten-)Journalistin hat Pierson die Themen Datenwissenschaften, Analyse und Statistik für bekannte Organisationen wie John Wiley & Sons, Inc., IBM und UBM behandelt. Besuchen Sie Piersons Blog auf der Data-Mania-Webseite.

Wenn Lillian nicht am Computer arbeitet, ist sie im Allgemeinen draußen, um die Schönheit der fremden Orte und Kulturen zu entdecken, in denen sie lebt. Als Unternehmerin im Bereich der Datenwissenschaften lebt Pierson ein Nomadenleben. Zwischen internationalen Ereignissen, Geschäftsreisen und saisonalen Umzügen reist sie oft und weit. Sie wohnt zur-zeit auf der Insel Koh Samui im Golf von Thailand. Sie plant, sich dort einen Zweitwohnsitz einzurichten.

Widmung

Ich widme dieses Buch meinen Eltern – Nan Rawson, Russ Pierson und Scott Carruth. Ich kenne und verstehe die großen Vorzüge (und die Verantwortung), die ich durch die Gaben erhalten habe, die sie so großzügig mit mir geteilt haben. Ich bin ihnen dafür für immer dankbar.

Danksagung der Autorin

Mein Dank gilt allen Menschen, die mir geholfen haben, dieses Buch zu schreiben. Ich danke dir, David Taylor, für die Zeit, die Energie und die Beiträge, mit denen du meine Arbeit an diesem Buch unterstützt hast. Ein großer Dank geht auch an Dr. Pierre Goovaerts für seine großzügigen Beiträge an Zeit und Sachkenntnis zur Unterstützung der Diskussion über die Geostatistik. Des Weiteren danke ich Shlomo Argamon für die technische Überarbeitung. Schließlich bedanke ich mich noch bei Paul Levesque, Andy Cummings, Kyle Looper und dem Rest des Produktionsteams bei Wiley.

Cover Page

Vorwort

Wir leben in spannenden, vielleicht sogar revolutionären Zeiten. Wenn sich unsere täglichen Aktivitäten von der realen in die digitale Welt verlagern, erzeugt nahezu jede unserer Handlungen Daten. Unsere mobilen Anwendungen sowie die Aktivitäten im Internet liefern Informationen. Sensoren und Maschinen sammeln, speichern und verarbeiten Informationen über unsere Umgebung. So entstehen neue riesige Datensätze, die öffentlich zugänglich sind.

Diese Flut an neuen Informationen eröffnet uns die Möglichkeit, reflektiertere Entscheidungen zu treffen, schneller auf Änderungen zu reagieren und die Welt um uns herum besser zu verstehen. Es kann jedoch sehr schwierig sein, zu entscheiden, wo man anfangen soll, wenn man aus dieser Flut an Daten Erkenntnisse gewinnen will. Welche Daten sollte man sammeln? Welche Methoden verwendet man, um mithilfe von Daten zu argumentieren? Und was am wichtigsten ist, wie bekommen wir die Antworten aus den Daten, um die dringendsten Fragen in Bezug auf unser Unternehmen, unser Leben oder unsere Welt beantworten zu können?

Data Science ist der Schlüssel, um die Flut an Daten nutzbar zu machen. Einfach ausgedrückt, ist Data Science die Kunst, aus Daten Informationen herauszulesen, um zukünftiges Verhalten vorherzusagen, Muster zu erkennen, die helfen, relevante Informationen nach Prioritäten zu ordnen oder auf andere Weise Schlussfolgerungen aus gewaltigen, ungeordneten Datenmengen zu ziehen.

Ich sage oft, dass eine von mir bevorzugte Interpretation des Wortes big in Big Data »expansiv« lautet. Die Datenrevolution wirkt sich auf so viele Gebiete aus, dass es heutzutage für alle Menschen, unabhängig davon, in welchen Bereichen sie arbeiten, notwendig ist, zu verstehen, wie man Daten einsetzt. Genau so mussten die Leute in den 80er und 90er Jahren lernen, mit Computern umzugehen. Dieses Buch wurde geschrieben, um Ihnen dabei zu helfen.

Ich habe selbst erlebt, wie grundlegend Kenntnisse in Data Science viele Organisationen und die Welt verändern können. Bei DataKind nutzen wir die Möglichkeiten von Data Science zum Einsatz für die Menschlichkeit, indem wir Datenwissenschaftler und Experten im Bereich der sozialen Netzwerke für Projekte verpflichten, die kritische Themen ansprechen. Darüber hinaus helfen wir, Gespräche darüber zu führen, wie Data Science dazu beitragen kann, den größten Herausforderungen der Welt entgegenzutreten. Von der Verwendung von Satellitenbildern über das Abschätzen der Armutsgrenze bis zum Aufdecken von Menschenrechtsverletzungen zum Verhindern von weiteren Gräueltaten haben Teams von DataKind mit zahlreichen gemeinnützigen und humanitären Organisationen zusammengearbeitet, um ihren Weg in die Welt der Datenwissenschaften zu unterstützen. Eine Lehre kann man aus all unseren Projekten ziehen: Die Leute und Organisationen, die sich am stärksten für die Verwendung von Daten auf neuartigen und verantwortungsvollen Wegen engagieren, sind genau die, die in diesem neuen Umfeld erfolgreich sein werden.

Allein der Besitz dieses Buches besagt, dass auch Sie Ihre ersten Schritte auf dieser Reise machen. Ob Sie nun ein erfahrener Forscher sind, der seine Kenntnisse im Bereich Data Science etwas auffrischen will, oder völlig neu in der Welt der Daten, Data Science für Dummies wird Sie mit den Hilfsmitteln ausrüsten, die Sie benötigen, um all das zu zeigen, wovon Sie träumen. Sie werden in der Lage sein, neue Ergebnisse Ihrer Aktivitäten vorzuführen, neue Erkenntnisse aus Ihrer letzten Marketing-Kampagne vorzustellen und neues Wissen bezüglich der Verhinderung des Ausbruchs von Krankheiten mit anderen zu teilen.

Wir befinden uns im Vorfeld eines neuen Datenzeitalters, und die, die etwas von Data Science verstehen, werden in der Lage sein, ein Teil dieses neuen, spannenden Abenteuers zu sein und ihm den Weg zu bahnen. Für Sie beginnt das Abenteuer jetzt. Willkommen an Bord!

Jake Porway

Gründer und Geschäftsführer von DataKindTM

Einleitung

Die Leistungsfähigkeit von Big Data und Data Science hat die Welt revolutioniert. Von der Führung von Wirtschaftsunternehmen bis zur Wahl des Lebensstils der heutigen digitalen Bürger haben Erkenntnisse aus den Datenwissenschaften zu Änderungen und Verbesserungen in nahezu jedem Lebensbereich geführt. Obwohl Data Science nur eins von vielen neuen Wissensgebieten ist, sollte jeder über sie verfügen, der diese Kenntnisse im beruflichen Umfeld oder in der Industrie benötigt.

Während andere sich auf datenwissenschaftliche Themen beziehende Bücher sich hauptsächlich auf Microsoft Excel zum Erlernen datenwissenschaftlicher Methoden beschränken, geht Data Science für Dummies weiter, indem es Themen wie Python, die statistische Programmiersprache R, D3.js, SQL, Excel und eine Fülle von frei zugänglichen Anwendungen behandelt, die Sie verwenden können, um in die praktische Arbeit mit Data Science einzusteigen. Manche Bücher zum Thema Data Science sind unnötig langatmig; die Autoren drehen sich im Kreis, ohne auf den Punkt zu kommen. Aber nicht in diesem Buch. Anders als in von steif schreibenden Akademikern verfassten Büchern habe ich dieses Buch in einer freundlichen zugänglichen Sprache geschrieben, da Data Science eine freundliche und zugängliche Angelegenheit ist!

Um ehrlich zu sein: Bis jetzt wurde das Gebiet der Data Science von einigen ausgewählten Genies dominiert, die dazu neigen, das Thema in einer Weise darzustellen, die man als unnötig technisch und etwas einschüchternd bezeichnen kann. Aber die Grundlagen der Datenwissenschaften sind nicht so schwierig und verwirrend. Data Science ist einfach die Verwendung von verschiedenen analytischen Techniken und Methoden, um aus Rohdaten nützliche Erkenntnisse abzuleiten und zu kommunizieren. Das Ziel von Data Science besteht darin, Prozesse zu optimieren und die Entscheidungsfindung durch verbesserte, auf Daten beruhende Informationen zu unterstützen. Dadurch wird ein Wertzuwachs erreicht – wobei der Wert in der Anzahl von geretteten Leben, einer gesparten Geldsumme oder einem Prozentsatz an gesteigerten Einkommen bestehen kann. In Data Science für Dummies erläutere ich ein breites Feld an Konzepten und Methoden, die Sie zum Gewinn von Erkenntnissen aus Ihren Daten verwenden können.

Oftmals halten sich Datenwissenschaftler mit der Analyse der Rinde von Bäumen auf und vergessen dabei, den Weg aus dem Wald zu suchen. Das ist eine gängige Falle, die Sie auf jeden Fall vermeiden sollten. Ich habe mir viel Mühe gegeben, den Hauptzweck jeder datenwissenschaftlichen Methode und das Ziel darzustellen, das Sie mit ihrer Anwendung erreichen können.

Über dieses Buch

Entsprechend der für Dummies-Marke ist dieses Buch modular und einfach zugänglich aufgebaut. Dieses Format ermöglicht es Ihnen, das Buch als praktischen Ratgeber und Nachschlagewerk zu benutzen. Mit anderen Worten, Sie müssen es nicht von der ersten bis zur letzten Seite lesen. Sie können auch nur das lesen, was Sie wirklich interessiert, und den Rest überspringen. Ich habe darauf geachtet, Beispiele aus der realen Welt zu verwenden, die Konzepte der Datenwissenschaften veranschaulichen, die sonst zu abstrakt wären.

Törichte Annahmen

Beim Schreiben dieses Buches bin ich davon ausgegangen, dass die Leser zumindest technisch so versiert sind, dass sie fortgeschrittenes Microsoft Excel beherrschen – Pivot-Tabellen, Gruppieren, Sortieren, grafische Darstellungen und Ähnliches. Außerdem ist es vorteilhaft, wenn Sie etwas von Algebra, grundlegender Statistik oder auch Wirtschaftsmathematik verstehen. Ob es töricht ist oder nicht, ich habe die Hoffnung, dass die Leser eine fachbezogene Sachkenntnis besitzen, die durch die im vorliegenden Buch präsentierten Methoden und Techniken erweitert wird. Da Datenwissenschaftler in der Lage sein müssen, die Konsequenzen und den Einsatz der von ihnen abgeleiteten Erkenntnisse intuitiv zu verstehen, sind Fachkenntnisse ein wichtiger Bestandteil der Datenwissenschaften.

In diesem Buch verwendete Symbole

Wenn Sie dieses Buch lesen, werden Ihnen am Rand folgende Symbole begegnen:

ErinnerungDas Tipp-Symbol markiert Tipps und Abkürzungen, die Sie verwenden können, um den Stoff besser zu bewältigen.

ErinnerungDas Erinnerungs-Symbol kennzeichnet die Informationen, die besonders wichtig sind. Um die wichtigsten der in jedem Kapitel zusammengestellten Informationen aufzuspüren, müssen Sie nur diese Icons überfliegen.

ErinnerungDas Vorsicht-Technik!-Symbol kennzeichnet hochgradig technische Informationen, die Sie gewöhnlich überspringen können.

ErinnerungDas Warn-Symbol sagt Ihnen, dass Sie vorsichtig sein müssen! Es kennzeichnet wichtige Informationen, die Sie vor Kopfschmerzen bewahren.

Wo Sie starten

Um es erneut zu betonen: Dieses Buch ist modular aufgebaut, sodass Sie jede beliebige Seite aufschlagen und dort anfangen können zu lesen. Obwohl Sie das Buch nicht von der ersten bis zur letzten Seite lesen müssen, sind die Kapitel 1, 2 und 9 zum Einstieg besonders geeignet.

Teil I

Mit Data Science beginnen

image

In diesem Teil …

ipad Einführung in das Gebiet der Data Science

ipad Definition des Begriffs »Big Data«

ipad Lösungen für Big-Data-Probleme erkunden

ipad Sehen, wie ein Unternehmen in der realen Welt Data Science sinnvoll verwenden kann