Grus | Einführung in Data Science | E-Book | sack.de
E-Book

E-Book, Deutsch, 401 Seiten

Grus Einführung in Data Science

Grundprinzipien der Datenanalyse mit Python

E-Book, Deutsch, 401 Seiten

ISBN: 978-3-96010-336-3
Verlag: O'Reilly
Format: PDF
Kopierschutz: 1 - PDF Watermark



Neuauflage des Standardwerks, jetzt zu Python 3.6 - Der idealer Einstieg in Data Science - didaktisch klug angelegt und gut nachvollziehbar - Bietet mathematisches Hintergrundwissen und einen Crashkurs für Python - Enthält neues Material zu Deep Learning, Statistik und Natural Language Processing Dieses Buch führt Sie in Data Science ein, indem es grundlegende Prinzipien der Datenanalyse erläutert und Ihnen geeignete Techniken und Werkzeuge vorstellt. Sie lernen nicht nur, wie Sie Bibliotheken, Frameworks, Module und Toolkits konkret einsetzen, sondern implementieren sie auch selbst. Dadurch entwickeln Sie ein tieferes Verständnis für die Zusammenhänge und erfahren, wie essenzielle Tools und Algorithmen der Datenanalyse im Kern funktionieren. Falls Sie Programmierkenntnisse und eine gewisse Sympathie für Mathematik mitbringen, unterstützt Joel Grus Sie dabei, mit den mathematischen und statistischen Grundlagen der Data Science vertraut zu werden und sich Programmierfähigkeiten anzueignen, die Sie für die Praxis benötigen. Dabei verwendet er Python: Die weit verbreitete Sprache ist leicht zu erlernen und bringt zahlreiche Bibliotheken für Data Science mit.

Joel Grus ist Forschungsingenieur am Allen Institute for Artificial Intelligence. Zuvor arbeitete er als Softwareentwickler bei Google und als Data Scientist für eine Reihe von Start-ups. Er lebt in Seattle, wo er regelmäßig an Treffen zu Datenanalysethemen teilnimmt. Er schreibt gelegentlich Artikel für sein Blog joelgrus.com und twittert täglich unter @joelgrus ('twitter.com/joelgrus').
Grus Einführung in Data Science jetzt bestellen!

Weitere Infos & Material


1;Inhalt;4
2;Vorwort zur 2. Auflage;12
3;Vorwort zur 1. Auflage;16
4;Kapitel 1: Einführung;20
4.1;Der Aufstieg der Daten;20
4.2;Was ist Data Science?;20
4.3;Ein motivierendes Szenario: DataSciencester;22
4.3.1;Finden von Schlüsselpersonen;22
4.3.2;Data Scientists, die Sie kennen könnten;25
4.3.3;Gehälter und Erfahrung;27
4.3.4;Bezahlte Nutzerkonten;30
4.3.5;Interessante Themen;30
4.3.6;Weiter geht’s!;32
5;Kapitel 2: Ein Crashkurs in Python;34
5.1;Zen und Python;34
5.2;Python installieren;35
5.3;Virtuelle Umgebungen;35
5.4;Formatieren durch Leerzeichen;37
5.5;Module;38
5.6;Funktionen;39
5.7;Strings;40
5.8;Exceptions;41
5.9;Listen;41
5.10;Tupel;42
5.11;Dictionaries;43
5.11.1;defaultdict;44
5.12;Counter;45
5.13;Sets;46
5.14;Kontrollfluss;46
5.15;Wahrheitswerte;47
5.16;Sortieren;48
5.17;List Comprehensions;49
5.18;Automatisierte Tests und assert;50
5.19;Objektorientierte Programmierung;50
5.20;Iterables und Generatoren;52
5.21;Zufall;54
5.22;Reguläre Ausdrücke;55
5.23;Funktionale Programmierung;56
5.24;zip und Entpacken von Argumenten;56
5.25;args und kwargs;56
5.26;Type Annotations;58
5.26.1;Wie man Type Annotations schreibt;60
5.27;Willkommen bei DataSciencester!;62
5.28;Weiterführendes Material;62
6;Kapitel 3: Daten visualisieren;64
6.1;matplotlib;64
6.2;Balkendiagramme;66
6.3;Liniendiagramme;69
6.4;Scatterplots;70
6.5;Weiterführendes Material;72
7;Kapitel 4: Lineare Algebra;74
7.1;Vektoren;74
7.2;Matrizen;78
7.3;Weiterführendes Material;81
8;Kapitel 5: Statistik;82
8.1;Einen einzelnen Datensatz beschreiben;82
8.1.1;Lagemaße;84
8.1.2;Streuung;86
8.2;Korrelation;87
8.3;Das Simpson-Paradoxon;90
8.4;Weitere Fallstricke von Korrelationen;91
8.5;Korrelation und Kausalität;92
8.6;Weiterführendes Material;93
9;Kapitel 6: Wahrscheinlichkeit;94
9.1;Abhängigkeit und Unabhängigkeit;94
9.2;Bedingte Wahrscheinlichkeit;95
9.3;Der Satz von Bayes;97
9.4;Zufallsvariablen;98
9.5;Kontinuierliche Wahrscheinlichkeitsverteilungen;99
9.6;Die Normalverteilung;100
9.7;Der zentrale Grenzwertsatz;103
9.8;Weiterführendes Material;105
10;Kapitel 7: Hypothesen und Schlussfolgerungen;106
10.1;Testen statistischer Hypothesen;106
10.2;Beispiel: Münzwürfe;106
10.3;p-Werte;109
10.4;Konfidenzintervalle;111
10.5;p-Hacking;112
10.6;Beispiel: Durchführen eines A/B-Tests;113
10.7;Bayessche Inferenz;115
10.8;Weiterführendes Material;118
11;Kapitel 8: Die Gradientenmethode;120
11.1;Die Idee hinter der Gradientenmethode;120
11.2;Abschätzen des Gradienten;121
11.3;Den Gradienten verwenden;124
11.4;Auswahl der richtigen Schrittweite;125
11.5;Mit der Gradientenmethode Modelle anpassen;125
11.6;Minibatch und stochastische Gradientenmethode;127
11.7;Weiterführendes Material;128
12;Kapitel 9: Daten sammeln;130
12.1;stdin und stdout;130
12.2;Einlesen von Dateien;132
12.2.1;Grundlagen von Textdateien;132
12.2.2;Dateien mit Feldtrennern;133
12.3;Auslesen von Webseiten;135
12.3.1;Parsen von HTML-Dokumenten;135
12.3.2;Beispiel: Den Kongress im Auge behalten;137
12.4;Verwenden von APIs;140
12.4.1;JSON und XML;140
12.4.2;Eine nicht authentifizierte API verwenden;141
12.4.3;APIs finden;142
12.5;Beispiel: Verwenden der Twitter-APIs;143
12.5.1;Zugriff auf die APIs erhalten;143
12.6;Weiterführendes Material;147
13;Kapitel 10: Arbeiten mit Daten;148
13.1;Erkunden Ihrer Daten;148
13.1.1;Erkunden eindimensionaler Daten;148
13.1.2;Zwei Dimensionen;151
13.1.3;Mehrere Dimensionen;152
13.2;NamedTuples;153
13.3;Datenklassen;155
13.4;Bereinigen und Umformen;156
13.5;Manipulieren von Daten;158
13.6;Umskalieren;160
13.7;Exkurs: tqdm;162
13.8;Hauptkomponentenanalyse;163
13.9;Weiterführendes Material;169
14;Kapitel 11: Maschinelles Lernen;170
14.1;Modellieren;170
14.2;Was ist maschinelles Lernen?;171
14.3;Overfitting und Underfitting;172
14.4;Genauigkeit;174
14.5;Der Kompromiss zwischen Bias und Varianz;177
14.6;Extraktion und Auswahl von Eigenschaften;178
14.7;Weiterführendes Material;179
15;Kapitel 12: k-Nächste-Nachbarn;180
15.1;Das Modell;180
15.2;Beispiel: Der Iris-Datensatz;182
15.3;Der Fluch der Dimensionalität;185
15.4;Weiterführendes Material;189
16;Kapitel 13: Naive Bayes-Klassifikatoren;190
16.1;Ein wirklich primitiver Spam-Filter;190
16.2;Ein anspruchsvollerer Spam-Filter;191
16.3;Implementierung;193
16.4;Das Modell testen;195
16.5;Das Modell verwenden;196
16.6;Weiterführendes Material;199
17;Kapitel 14: Einfache lineare Regression;200
17.1;Das Modell;200
17.2;Anwenden des Gradientenverfahrens;204
17.3;Maximum-Likelihood-Methode;205
17.4;Weiterführendes Material;205
18;Kapitel 15: Multiple Regression;206
18.1;Das Modell;206
18.2;Weitere Annahmen bei der Methode der kleinsten Quadrate;207
18.3;Anpassen des Modells;208
18.4;Interpretation des Modells;210
18.5;Anpassungsgüte;211
18.6;Exkurs: Bootstrapping;211
18.7;Standardfehler von Regressionskoeffizienten;213
18.8;Regularisierung;215
18.9;Weiterführendes Material;217
19;Kapitel 16: Logistische Regression;218
19.1;Die Aufgabe;218
19.2;Die logistische Funktion;221
19.3;Anwendung des Modells;223
19.4;Anpassungsgüte;224
19.5;Support Vector Machines;226
19.6;Weiterführendes Material;228
20;Kapitel 17: Entscheidungsbäume;230
20.1;Was ist ein Entscheidungsbaum?;230
20.2;Entropie;232
20.3;Die Entropie einer Partition;234
20.4;Einen Entscheidungsbaum erzeugen;235
20.5;Verallgemeinerung des Verfahrens;238
20.6;Random Forests;240
20.7;Weiterführendes Material;241
21;Kapitel 18: Neuronale Netzwerke;242
21.1;Perzeptrons;242
21.2;Feed-forward-Netze;245
21.3;Backpropagation;247
21.4;Beispiel: Fizz Buzz;250
21.5;Weiterführendes Material;253
22;Kapitel 19: Deep Learning;254
22.1;Der Tensor;254
22.2;Die Layer-Abstrahierung;257
22.3;Der lineare Layer;259
22.4;Neuronale Netzwerke als Abfolge von Layern;261
22.5;Verlust und Optimierung;262
22.6;Beispiel XOR überarbeitet;265
22.7;Andere Aktivierungsfunktionen;266
22.8;Beispiel: Fizz Buzz überarbeitet;267
22.9;Softmaxes und Kreuz-Entropie;268
22.10;Dropout;270
22.11;Beispiel: MNIST;271
22.12;Modelle sichern und laden;276
22.13;Weiterführendes Material;277
23;Kapitel 20: Clustering;278
23.1;Die Idee;278
23.2;Das Modell;279
23.3;Beispiel: Meet-ups;281
23.4;Die Auswahl von k;283
23.5;Beispiel: Clustern von Farben;284
23.6;Agglomeratives hierarchisches Clustering;286
23.7;Weiterführendes Material;291
24;Kapitel 21: Linguistische Datenverarbeitung;292
24.1;Wortwolken;292
24.2;N-Gramm-Sprachmodelle;294
24.3;Grammatiken;297
24.4;Exkurs: Gibbs-Sampling;299
24.5;Themenmodellierung;301
24.6;Wortvektoren;306
24.7;Rekurrente neuronale Netzwerke;315
24.8;Beispiel: Ein RNN auf Zeichenebene verwenden;318
24.9;Weiterführendes Material;321
25;Kapitel 22: Graphenanalyse;322
25.1;Betweenness-Zentralität;322
25.2;Eigenvektor-Zentralität;327
25.2.1;Matrizenmultiplikation;327
25.2.2;Zentralität;329
25.3;Gerichtete Graphen und PageRank;331
25.4;Weiterführendes Material;333
26;Kapitel 23: Empfehlungssysteme;334
26.1;Manuelle Pflege;335
26.2;Empfehlen, was beliebt ist;335
26.3;Nutzerbasiertes kollaboratives Filtern;336
26.4;Gegenstandsbasiertes kollaboratives Filtern;339
26.5;Matrixfaktorisierung;341
26.6;Weiterführendes Material;345
27;Kapitel 24: Datenbanken und SQL;346
27.1;CREATE TABLE und INSERT;346
27.2;UPDATE;349
27.3;DELETE;350
27.4;SELECT;351
27.5;GROUP BY;353
27.6;ORDER BY;356
27.7;JOIN;356
27.8;Subqueries;359
27.9;Indexstrukturen;359
27.10;Optimierung von Anfragen;360
27.11;NoSQL;360
27.12;Weiterführendes Material;361
28;Kapitel 25: MapReduce;362
28.1;Beispiel: Wörter zählen;362
28.2;Warum MapReduce?;364
28.3;MapReduce verallgemeinert;365
28.4;Beispiel: Statusmeldungen analysieren;366
28.5;Beispiel: Matrizenmultiplikation;368
28.6;Eine Randbemerkung: Combiners;370
28.7;Weiterführendes Material;370
29;Kapitel 26: Datenethik;372
29.1;Was ist Datenethik?;372
29.2;Jetzt aber wirklich: Was ist Datenethik?;373
29.3;Sollte ich mir über Datenethik Gedanken machen?;373
29.4;Schlechte Produkte bauen;374
29.5;Genauigkeit und Fairness abwägen;375
29.6;Zusammenarbeit;376
29.7;Interpretierbarkeit;377
29.8;Empfehlungen;377
29.9;Tendenziöse Daten;378
29.10;Datenschutz;379
29.11;Zusammenfassung;380
29.12;Weiterführendes Material;380
30;Kapitel 27: Gehet hin und praktizieret Data Science;382
30.1;IPython;382
30.2;Mathematik;383
30.3;Nicht bei null starten;383
30.3.1;NumPy;383
30.3.2;pandas;383
30.3.3;scikit-learn;384
30.3.4;Visualisierung;384
30.3.5;R;385
30.3.6;Deep Learning;385
30.4;Finden Sie Daten;385
30.5;Data Science in der Praxis;386
30.5.1;Hacker News;386
30.5.2;Feuerwehrautos;386
30.5.3;T-Shirts;387
30.5.4;Tweets on a Globe;387
30.5.5;Und Sie?;388
31;Index;390


Joel Grus ist Forschungsingenieur am Allen Institute for Artificial Intelligence. Zuvor arbeitete er als Softwareentwickler bei Google und als Data Scientist für eine Reihe von Start-ups. Er lebt in Seattle, wo er regelmäßig an Treffen zu Datenanalysethemen teilnimmt. Er schreibt gelegentlich Artikel für sein Blog joelgrus.com und twittert täglich unter @joelgrus ("twitter.com/joelgrus").


Ihre Fragen, Wünsche oder Anmerkungen
Vorname*
Nachname*
Ihre E-Mail-Adresse*
Kundennr.
Ihre Nachricht*
Lediglich mit * gekennzeichnete Felder sind Pflichtfelder.
Wenn Sie die im Kontaktformular eingegebenen Daten durch Klick auf den nachfolgenden Button übersenden, erklären Sie sich damit einverstanden, dass wir Ihr Angaben für die Beantwortung Ihrer Anfrage verwenden. Selbstverständlich werden Ihre Daten vertraulich behandelt und nicht an Dritte weitergegeben. Sie können der Verwendung Ihrer Daten jederzeit widersprechen. Das Datenhandling bei Sack Fachmedien erklären wir Ihnen in unserer Datenschutzerklärung.