E-Book, Deutsch, 401 Seiten
Grus Einführung in Data Science
2. Auflage 2019
ISBN: 978-3-96010-336-3
Verlag: O'Reilly
Format: PDF
Kopierschutz: 1 - PDF Watermark
Grundprinzipien der Datenanalyse mit Python
E-Book, Deutsch, 401 Seiten
ISBN: 978-3-96010-336-3
Verlag: O'Reilly
Format: PDF
Kopierschutz: 1 - PDF Watermark
Joel Grus ist Forschungsingenieur am Allen Institute for Artificial Intelligence. Zuvor arbeitete er als Softwareentwickler bei Google und als Data Scientist für eine Reihe von Start-ups. Er lebt in Seattle, wo er regelmäßig an Treffen zu Datenanalysethemen teilnimmt. Er schreibt gelegentlich Artikel für sein Blog joelgrus.com und twittert täglich unter @joelgrus ('twitter.com/joelgrus').
Weitere Infos & Material
1;Inhalt;4
2;Vorwort zur 2. Auflage;12
3;Vorwort zur 1. Auflage;16
4;Kapitel 1: Einführung;20
4.1;Der Aufstieg der Daten;20
4.2;Was ist Data Science?;20
4.3;Ein motivierendes Szenario: DataSciencester;22
4.3.1;Finden von Schlüsselpersonen;22
4.3.2;Data Scientists, die Sie kennen könnten;25
4.3.3;Gehälter und Erfahrung;27
4.3.4;Bezahlte Nutzerkonten;30
4.3.5;Interessante Themen;30
4.3.6;Weiter geht’s!;32
5;Kapitel 2: Ein Crashkurs in Python;34
5.1;Zen und Python;34
5.2;Python installieren;35
5.3;Virtuelle Umgebungen;35
5.4;Formatieren durch Leerzeichen;37
5.5;Module;38
5.6;Funktionen;39
5.7;Strings;40
5.8;Exceptions;41
5.9;Listen;41
5.10;Tupel;42
5.11;Dictionaries;43
5.11.1;defaultdict;44
5.12;Counter;45
5.13;Sets;46
5.14;Kontrollfluss;46
5.15;Wahrheitswerte;47
5.16;Sortieren;48
5.17;List Comprehensions;49
5.18;Automatisierte Tests und assert;50
5.19;Objektorientierte Programmierung;50
5.20;Iterables und Generatoren;52
5.21;Zufall;54
5.22;Reguläre Ausdrücke;55
5.23;Funktionale Programmierung;56
5.24;zip und Entpacken von Argumenten;56
5.25;args und kwargs;56
5.26;Type Annotations;58
5.26.1;Wie man Type Annotations schreibt;60
5.27;Willkommen bei DataSciencester!;62
5.28;Weiterführendes Material;62
6;Kapitel 3: Daten visualisieren;64
6.1;matplotlib;64
6.2;Balkendiagramme;66
6.3;Liniendiagramme;69
6.4;Scatterplots;70
6.5;Weiterführendes Material;72
7;Kapitel 4: Lineare Algebra;74
7.1;Vektoren;74
7.2;Matrizen;78
7.3;Weiterführendes Material;81
8;Kapitel 5: Statistik;82
8.1;Einen einzelnen Datensatz beschreiben;82
8.1.1;Lagemaße;84
8.1.2;Streuung;86
8.2;Korrelation;87
8.3;Das Simpson-Paradoxon;90
8.4;Weitere Fallstricke von Korrelationen;91
8.5;Korrelation und Kausalität;92
8.6;Weiterführendes Material;93
9;Kapitel 6: Wahrscheinlichkeit;94
9.1;Abhängigkeit und Unabhängigkeit;94
9.2;Bedingte Wahrscheinlichkeit;95
9.3;Der Satz von Bayes;97
9.4;Zufallsvariablen;98
9.5;Kontinuierliche Wahrscheinlichkeitsverteilungen;99
9.6;Die Normalverteilung;100
9.7;Der zentrale Grenzwertsatz;103
9.8;Weiterführendes Material;105
10;Kapitel 7: Hypothesen und Schlussfolgerungen;106
10.1;Testen statistischer Hypothesen;106
10.2;Beispiel: Münzwürfe;106
10.3;p-Werte;109
10.4;Konfidenzintervalle;111
10.5;p-Hacking;112
10.6;Beispiel: Durchführen eines A/B-Tests;113
10.7;Bayessche Inferenz;115
10.8;Weiterführendes Material;118
11;Kapitel 8: Die Gradientenmethode;120
11.1;Die Idee hinter der Gradientenmethode;120
11.2;Abschätzen des Gradienten;121
11.3;Den Gradienten verwenden;124
11.4;Auswahl der richtigen Schrittweite;125
11.5;Mit der Gradientenmethode Modelle anpassen;125
11.6;Minibatch und stochastische Gradientenmethode;127
11.7;Weiterführendes Material;128
12;Kapitel 9: Daten sammeln;130
12.1;stdin und stdout;130
12.2;Einlesen von Dateien;132
12.2.1;Grundlagen von Textdateien;132
12.2.2;Dateien mit Feldtrennern;133
12.3;Auslesen von Webseiten;135
12.3.1;Parsen von HTML-Dokumenten;135
12.3.2;Beispiel: Den Kongress im Auge behalten;137
12.4;Verwenden von APIs;140
12.4.1;JSON und XML;140
12.4.2;Eine nicht authentifizierte API verwenden;141
12.4.3;APIs finden;142
12.5;Beispiel: Verwenden der Twitter-APIs;143
12.5.1;Zugriff auf die APIs erhalten;143
12.6;Weiterführendes Material;147
13;Kapitel 10: Arbeiten mit Daten;148
13.1;Erkunden Ihrer Daten;148
13.1.1;Erkunden eindimensionaler Daten;148
13.1.2;Zwei Dimensionen;151
13.1.3;Mehrere Dimensionen;152
13.2;NamedTuples;153
13.3;Datenklassen;155
13.4;Bereinigen und Umformen;156
13.5;Manipulieren von Daten;158
13.6;Umskalieren;160
13.7;Exkurs: tqdm;162
13.8;Hauptkomponentenanalyse;163
13.9;Weiterführendes Material;169
14;Kapitel 11: Maschinelles Lernen;170
14.1;Modellieren;170
14.2;Was ist maschinelles Lernen?;171
14.3;Overfitting und Underfitting;172
14.4;Genauigkeit;174
14.5;Der Kompromiss zwischen Bias und Varianz;177
14.6;Extraktion und Auswahl von Eigenschaften;178
14.7;Weiterführendes Material;179
15;Kapitel 12: k-Nächste-Nachbarn;180
15.1;Das Modell;180
15.2;Beispiel: Der Iris-Datensatz;182
15.3;Der Fluch der Dimensionalität;185
15.4;Weiterführendes Material;189
16;Kapitel 13: Naive Bayes-Klassifikatoren;190
16.1;Ein wirklich primitiver Spam-Filter;190
16.2;Ein anspruchsvollerer Spam-Filter;191
16.3;Implementierung;193
16.4;Das Modell testen;195
16.5;Das Modell verwenden;196
16.6;Weiterführendes Material;199
17;Kapitel 14: Einfache lineare Regression;200
17.1;Das Modell;200
17.2;Anwenden des Gradientenverfahrens;204
17.3;Maximum-Likelihood-Methode;205
17.4;Weiterführendes Material;205
18;Kapitel 15: Multiple Regression;206
18.1;Das Modell;206
18.2;Weitere Annahmen bei der Methode der kleinsten Quadrate;207
18.3;Anpassen des Modells;208
18.4;Interpretation des Modells;210
18.5;Anpassungsgüte;211
18.6;Exkurs: Bootstrapping;211
18.7;Standardfehler von Regressionskoeffizienten;213
18.8;Regularisierung;215
18.9;Weiterführendes Material;217
19;Kapitel 16: Logistische Regression;218
19.1;Die Aufgabe;218
19.2;Die logistische Funktion;221
19.3;Anwendung des Modells;223
19.4;Anpassungsgüte;224
19.5;Support Vector Machines;226
19.6;Weiterführendes Material;228
20;Kapitel 17: Entscheidungsbäume;230
20.1;Was ist ein Entscheidungsbaum?;230
20.2;Entropie;232
20.3;Die Entropie einer Partition;234
20.4;Einen Entscheidungsbaum erzeugen;235
20.5;Verallgemeinerung des Verfahrens;238
20.6;Random Forests;240
20.7;Weiterführendes Material;241
21;Kapitel 18: Neuronale Netzwerke;242
21.1;Perzeptrons;242
21.2;Feed-forward-Netze;245
21.3;Backpropagation;247
21.4;Beispiel: Fizz Buzz;250
21.5;Weiterführendes Material;253
22;Kapitel 19: Deep Learning;254
22.1;Der Tensor;254
22.2;Die Layer-Abstrahierung;257
22.3;Der lineare Layer;259
22.4;Neuronale Netzwerke als Abfolge von Layern;261
22.5;Verlust und Optimierung;262
22.6;Beispiel XOR überarbeitet;265
22.7;Andere Aktivierungsfunktionen;266
22.8;Beispiel: Fizz Buzz überarbeitet;267
22.9;Softmaxes und Kreuz-Entropie;268
22.10;Dropout;270
22.11;Beispiel: MNIST;271
22.12;Modelle sichern und laden;276
22.13;Weiterführendes Material;277
23;Kapitel 20: Clustering;278
23.1;Die Idee;278
23.2;Das Modell;279
23.3;Beispiel: Meet-ups;281
23.4;Die Auswahl von k;283
23.5;Beispiel: Clustern von Farben;284
23.6;Agglomeratives hierarchisches Clustering;286
23.7;Weiterführendes Material;291
24;Kapitel 21: Linguistische Datenverarbeitung;292
24.1;Wortwolken;292
24.2;N-Gramm-Sprachmodelle;294
24.3;Grammatiken;297
24.4;Exkurs: Gibbs-Sampling;299
24.5;Themenmodellierung;301
24.6;Wortvektoren;306
24.7;Rekurrente neuronale Netzwerke;315
24.8;Beispiel: Ein RNN auf Zeichenebene verwenden;318
24.9;Weiterführendes Material;321
25;Kapitel 22: Graphenanalyse;322
25.1;Betweenness-Zentralität;322
25.2;Eigenvektor-Zentralität;327
25.2.1;Matrizenmultiplikation;327
25.2.2;Zentralität;329
25.3;Gerichtete Graphen und PageRank;331
25.4;Weiterführendes Material;333
26;Kapitel 23: Empfehlungssysteme;334
26.1;Manuelle Pflege;335
26.2;Empfehlen, was beliebt ist;335
26.3;Nutzerbasiertes kollaboratives Filtern;336
26.4;Gegenstandsbasiertes kollaboratives Filtern;339
26.5;Matrixfaktorisierung;341
26.6;Weiterführendes Material;345
27;Kapitel 24: Datenbanken und SQL;346
27.1;CREATE TABLE und INSERT;346
27.2;UPDATE;349
27.3;DELETE;350
27.4;SELECT;351
27.5;GROUP BY;353
27.6;ORDER BY;356
27.7;JOIN;356
27.8;Subqueries;359
27.9;Indexstrukturen;359
27.10;Optimierung von Anfragen;360
27.11;NoSQL;360
27.12;Weiterführendes Material;361
28;Kapitel 25: MapReduce;362
28.1;Beispiel: Wörter zählen;362
28.2;Warum MapReduce?;364
28.3;MapReduce verallgemeinert;365
28.4;Beispiel: Statusmeldungen analysieren;366
28.5;Beispiel: Matrizenmultiplikation;368
28.6;Eine Randbemerkung: Combiners;370
28.7;Weiterführendes Material;370
29;Kapitel 26: Datenethik;372
29.1;Was ist Datenethik?;372
29.2;Jetzt aber wirklich: Was ist Datenethik?;373
29.3;Sollte ich mir über Datenethik Gedanken machen?;373
29.4;Schlechte Produkte bauen;374
29.5;Genauigkeit und Fairness abwägen;375
29.6;Zusammenarbeit;376
29.7;Interpretierbarkeit;377
29.8;Empfehlungen;377
29.9;Tendenziöse Daten;378
29.10;Datenschutz;379
29.11;Zusammenfassung;380
29.12;Weiterführendes Material;380
30;Kapitel 27: Gehet hin und praktizieret Data Science;382
30.1;IPython;382
30.2;Mathematik;383
30.3;Nicht bei null starten;383
30.3.1;NumPy;383
30.3.2;pandas;383
30.3.3;scikit-learn;384
30.3.4;Visualisierung;384
30.3.5;R;385
30.3.6;Deep Learning;385
30.4;Finden Sie Daten;385
30.5;Data Science in der Praxis;386
30.5.1;Hacker News;386
30.5.2;Feuerwehrautos;386
30.5.3;T-Shirts;387
30.5.4;Tweets on a Globe;387
30.5.5;Und Sie?;388
31;Index;390