Müller / Guido Einführung in Machine Learning mit Python

Praxiswissen Data Science
1. Auflage 2017
ISBN: 978-3-96010-111-6
Verlag: O'Reilly
Format: PDF
Kopierschutz: Adobe DRM (»Systemvoraussetzungen)

Häufig gestellte Fragen zu E-Books

E-Book, Deutsch, 378 Seiten

Reihe: Animals

Praxiswissen Data Science

E-Book, Deutsch, 378 Seiten

Reihe: Animals

ISBN: 978-3-96010-111-6
Verlag: O'Reilly
Format: PDF
Kopierschutz: Adobe DRM (»Systemvoraussetzungen)

Häufig gestellte Fragen zu E-Books

39,90 €

(inkl. MwSt.)

versandkostenfreie Lieferung
Nicht mehr lieferbar

In den Warenkorb

Machine Learning ist zu einem wichtigen Bestandteil vieler kommerzieller Anwendungen und Forschungsprojekte geworden, von der medizinischen Diagnostik bis hin zur Suche nach Freunden in sozialen Netzwerken. Um Machine-Learning-Anwendungen zu entwickeln, braucht es keine großen Expertenteams: Wenn Sie Python-Grundkenntnisse mitbringen, zeigt Ihnen dieses Praxisbuch, wie Sie Ihre eigenen Machine-Learning-Lösungen erstellen.

Mit Python und der scikit-learn-Bibliothek erarbeiten Sie sich alle Schritte, die für eine erfolgreiche Machine-Learning-Anwendung notwendig sind. Die Autoren Andreas Müller und Sarah Guido konzentrieren sich bei der Verwendung von Machine-Learning-Algorithmen auf die praktischen Aspekte statt auf die Mathematik dahinter. Wenn Sie zusätzlich mit den Bibliotheken NumPy und matplotlib vertraut sind, hilft Ihnen dies, noch mehr aus diesem Tutorial herauszuholen.

Das Buch zeigt Ihnen:
- grundlegende Konzepte und Anwendungen von Machine Learning
- Vor- und Nachteile weit verbreiteter maschineller Lernalgorithmen
- wie sich die von Machine Learning verarbeiteten Daten repräsentieren lassen und auf welche Aspekte der Daten Sie sich konzentrieren sollten
- fortgeschrittene Methoden zur Auswertung von Modellen und zum Optimieren von Parametern
- das Konzept von Pipelines, mit denen Modelle verkettet und Arbeitsabläufe gekapselt werden
- Arbeitsmethoden für Textdaten, insbesondere textspezifische Verarbeitungstechniken
- Möglichkeiten zur Verbesserung Ihrer Fähigkeiten in den Bereichen Machine Learning und Data Science

Dieses Buch ist eine fantastische, super praktische Informationsquelle für jeden, der mit Machine Learning in Python starten möchte – ich wünschte nur, es hätte schon existiert, als ich mit scikit-learn anfing!
Hanna Wallach, Senior Researcher, Microsoft Research

Müller / Guido Einführung in Machine Learning mit Python jetzt bestellen!

Autoren/Hrsg.

Müller, Andreas C.

Guido, Sarah

Weitere Mitwirkende

Rother, Kristian

Weitere Infos & Material

Inhaltsverzeichnis

1;Inhalt;5
2;Vorwort;9
3;Kapitel 1: Einführung;15
3.1;Warum Machine Learning?;15
3.1.1;Welche Probleme kann Machine Learning lösen?;16
3.1.2;Ihre Aufgabe und Ihre Daten kennen;19
3.2;Warum Python?;19
3.3;scikit-learn;20
3.3.1;Installieren von scikit-learn;20
3.4;Grundlegende Bibliotheken und Werkzeuge;21
3.4.1;Jupyter Notebook;22
3.4.2;NumPy;22
3.4.3;SciPy;22
3.4.4;matplotlib;24
3.4.5;pandas;24
3.4.6;mglearn;25
3.5;Python 2 versus Python 3;26
3.6;In diesem Buch verwendete Versionen;27
3.7;Eine erste Anwendung: Klassifizieren von Iris-Spezies;28
3.7.1;Die Daten kennenlernen;29
3.7.2;Erfolg nachweisen: Trainings- und Testdaten;31
3.7.3;Das Wichtigste zuerst: Sichten Sie Ihre Daten;33
3.7.4;Ihr erstes Modell konstruieren: k-nächste-Nachbarn;35
3.7.5;Vorhersagen treffen;36
3.7.6;Evaluieren des Modells;37
3.8;Zusammenfassung und Ausblick;37
4;Kapitel 2: Überwachtes Lernen;41
4.1;Klassifikation und Regression;41
4.2;Verallgemeinerung, Overfitting und Underfitting;42
4.2.1;Zusammenhang zwischen Modellkomplexität und Größe des Datensatzes;45
4.3;Algorithmen zum überwachten Lernen;46
4.3.1;Einige Beispieldatensätze;46
4.3.2;k-nächste-Nachbarn;50
4.3.3;Lineare Modelle;59
4.3.4;Naive Bayes-Klassifikatoren;80
4.3.5;Entscheidungsbäume;82
4.3.6;Ensembles von Entscheidungsbäumen;94
4.3.7;Support Vector Machines mit Kernel;102
4.3.8;Neuronale Netze (Deep Learning);113
4.4;Schätzungen der Unsicherheit von Klassifikatoren;126
4.4.1;Die Entscheidungsfunktion;127
4.4.2;Vorhersagen von Wahrscheinlichkeiten;130
4.4.3;Unsicherheit bei der Klassifikation mehrerer Kategorien;132
4.5;Zusammenfassung und Ausblick;134
5;Kapitel 3: Unüberwachtes Lernen und Vorverarbeitung;137
5.1;Arten von unüberwachtem Lernen;137
5.2;Herausforderungen beim unüberwachten Lernen;138
5.3;Vorverarbeiten und Skalieren;138
5.3.1;Unterschiedliche Möglichkeiten der Vorverarbeitung;139
5.3.2;Anwenden von Datentransformationen;140
5.3.3;Trainings- und Testdaten in gleicher Weise skalieren;142
5.3.4;Die Auswirkungen der Vorverarbeitung auf überwachtes Lernen;144
5.4;Dimensionsreduktion, Extraktion von Merkmalen und Manifold Learning;146
5.4.1;Hauptkomponentenzerlegung (PCA);146
5.4.2;Nicht-negative-Matrix-Faktorisierung (NMF);161
5.4.3;Manifold Learning mit t-SNE;168
5.5;Clusteranalyse;172
5.5.1;k-Means-Clustering;172
5.5.2;Agglomeratives Clustering;183
5.5.3;DBSCAN;188
5.5.4;Vergleichen und Auswerten von Clusteralgorithmen;192
5.5.5;Zusammenfassung der Clustering-Methoden;206
5.6;Zusammenfassung und Ausblick;207
6;Kapitel 4: Repräsentation von Daten und Merkmalsgenerierung;209
6.1;Kategorische Variablen;210
6.1.1;One-Hot-Kodierung (Dummy-Variablen);211
6.1.2;Zahlen können kategorische Daten kodieren;216
6.2;Binning, Diskretisierung, lineare Modelle und Bäume;218
6.3;Interaktionen und Polynome;222
6.4;Univariate nichtlineare Transformation;228
6.5;Automatische Auswahl von Merkmalen;232
6.5.1;Univariate Statistiken;232
6.5.2;Modellbasierte Auswahl von Merkmalen;235
6.5.3;Iterative Auswahl von Merkmalen;236
6.6;Berücksichtigen von Expertenwissen;238
6.7;Zusammenfassung und Ausblick;247
7;Kapitel 5: Evaluierung und Verbesserung von Modellen;249
7.1;Kreuzvalidierung;250
7.1.1;Kreuzvalidierung in scikit-learn;251
7.1.2;Vorteile der Kreuzvalidierung;252
7.1.3;Stratifizierte k-fache Kreuzvalidierung und andere Strategien;252
7.2;Gittersuche;258
7.2.1;Einfache Gittersuche;259
7.2.2;Die Gefahr des Overfittings von Parametern und Validierungsdaten;260
7.2.3;Gittersuche mit Kreuzvalidierung;262
7.3;Evaluationsmetriken;274
7.3.1;Das Ziel im Auge behalten;274
7.3.2;Metriken zur binären Klassifikation;275
7.3.3;Metriken zur Klassifikation mehrerer Kategorien;296
7.3.4;Regressionsmetriken;298
7.3.5;Verwenden von Metriken zur Modellauswahl;299
7.4;Zusammenfassung und Ausblick;301
8;Kapitel 6: Verkettete Algorithmen und Pipelines;303
8.1;Parameterauswahl mit Vorverarbeitung;304
8.2;Erstellen von Pipelines;306
8.3;Pipelines zur Gittersuche einsetzen;307
8.4;Die allgemeine Pipeline-Schnittstelle;310
8.4.1;Bequemes Erstellen von Pipelines mit make_pipeline;311
8.4.2;Zugriff auf Attribute von Schritten;312
8.4.3;Zugriff auf Attribute in einer Pipeline mit Gittersuche;313
8.5;Gittersuche für Vorverarbeitungsschritte und Modellparameter;314
8.6;Gittersuche nach dem richtigen Modell;317
8.7;Zusammenfassung und Ausblick;318
9;Kapitel 7: Verarbeiten von Textdaten;321
9.1;Arten von als Strings repräsentierter Daten;321
9.2;Anwendungsbeispiel: Meinungsanalyse zu Filmbewertungen;323
9.3;Repräsentation von Text als Bag-of-Words;325
9.3.1;Anwenden von Bag-of-Words auf einen einfachen Datensatz;327
9.3.2;Bag-of-Words der Filmbewertungen;328
9.4;Stoppwörter;332
9.5;Umskalieren der Daten mit tf-idf;333
9.6;Untersuchen der Koeffizienten des Modells;336
9.7;Bag-of-Words mit mehr als einem Wort (n-Gramme);337
9.8;Fortgeschrittene Tokenisierung, Stemming und Lemmatisierung;341
9.9;Modellierung von Themen und Clustering von Dokumenten;345
9.9.1;Latent Dirichlet Allocation;345
9.10;Zusammenfassung und Ausblick;352
10;Kapitel 8: Zusammenfassung und weiterführende Ressourcen;355
10.1;Herangehensweise an eine Fragestellung beim maschinellen Lernen;355
10.1.1;Der menschliche Faktor;356
10.2;Vom Prototyp zum Produktivsystem;357
10.3;Testen von Produktivsystemen;358
10.4;Konstruieren eines eigenen Estimators;358
10.5;Wie geht es von hier aus weiter?;359
10.5.1;Theorie;359
10.5.2;Andere Umgebungen und Programmpakete zum maschinellen Lernen;360
10.5.3;Ranking, Empfehlungssysteme und andere Arten von Lernen;361
10.5.4;Probabilistische Modellierung, Inferenz und probabilistische Programmierung;361
10.5.5;Neuronale Netze;362
10.5.6;Skalieren auf größere Datensätze;363
10.5.7;Verfeinern Sie Ihre Fähigkeiten;364
10.6;Schlussbemerkung;365
11;Index;367
12;Über die Autoren;377
13;Über die Übersetzer;377
14;Kolophon;377
15;www.oreilly.de;0

Über Autor(innen)

Andreas C. Müller hat an der Universität Bonn in Machine Learning promoviert. Bei Amazon hat er an
Anwendungen für rechnergestütztes Sehen gearbeitet, heute ist er am Center for Data Science an der New
York University tätig. Er ist als Core Contributor an der Entwicklung und Wartung von scikit-learn beteiligt.

Sarah Guido ist als Data Scientist tätig und hat viel für Start-ups gearbeitet, zuletzt als Lead Data Scientist bei Bitly. Sie ist eine erfahrene Konferenzrednerin und hat einen Master-Abschluss im Fach Information an der University of Michigan erworben.

Produktsicherheit

Fragen zum Artikel?

Ihre Fragen, Wünsche oder Anmerkungen

Vorname*

Nachname*

Ihre E-Mail-Adresse*

Kundennr.

Ihre Nachricht*

Lediglich mit * gekennzeichnete Felder sind Pflichtfelder.

Wenn Sie die im Kontaktformular eingegebenen Daten durch Klick auf den nachfolgenden Button übersenden, erklären Sie sich damit einverstanden, dass wir Ihr Angaben für die Beantwortung Ihrer Anfrage verwenden. Selbstverständlich werden Ihre Daten vertraulich behandelt und nicht an Dritte weitergegeben. Sie können der Verwendung Ihrer Daten jederzeit widersprechen. Das Datenhandling bei Sack Fachmedien erklären wir Ihnen in unserer Datenschutzerklärung.

Nicht mehr lieferbar

Webcode: sack.de/c2sd5