Patel | Praxisbuch Unsupervised Learning | E-Book | sack.de
E-Book

E-Book, Deutsch, 358 Seiten

Patel Praxisbuch Unsupervised Learning

Machine-Learning-Anwendungen für ungelabelte Daten mit Python programmieren

E-Book, Deutsch, 358 Seiten

ISBN: 978-3-96088-877-2
Verlag: O'Reilly
Format: EPUB
Kopierschutz: 6 - ePub Watermark



Entdecken Sie Muster in Daten, die für den Menschen nicht erkennbar sind Unsupervised Learning könnte der Schlüssel zu einer umfassenderen künstlichen Intelligenz sein Voller praktischer Techniken für die Arbeit mit ungelabelten Daten, verständlich geschrieben und mit unkomplizierten Python-Beispielen Verwendet Scikit-learn, TensorFlow und Keras Ein Großteil der weltweit verfügbaren Daten ist ungelabelt. Auf diese nicht klassifizierten Daten lassen sich die Techniken des Supervised Learning, die im Machine Learning viel genutzt werden, nicht anwenden. Dagegen kann das Unsupervised Learning - auch unüberwachtes Lernen genannt - für ungelabelte Datensätze eingesetzt werden, um aussagekräftige Muster zu entdecken, die tief in den Daten verborgen sind - Muster, die für den Menschen fast unmöglich zu entdecken sind. Wie Data Scientists Unsupervised Learning für ihre Daten nutzen können, zeigt Ankur Patel in diesem Buch anhand konkreter Beispiele, die sich schnell und effektiv umsetzen lassen. Sie erfahren, wie Sie schwer zu findende Muster in Daten herausarbeiten und dadurch z.B. tiefere Einblicke in Geschäftsprozesse gewinnen. Sie lernen auch, wie Sie Anomalien erkennen, automatisches Feature Engineering durchführen oder synthetische Datensätze generieren.

Ankur A. Patel ist Vice President Data Science bei 7Park Data, einem Portfolio-Unternehmen von Vista Equity Partners. Bei 7Park Data verwenden Ankur und sein Data-Science-Team alternative Daten, um Datenprodukte für Hedge-Fonds und Unternehmen sowie Machine Learning als Service (MLaaS) für Geschäftskunden zu entwickeln.
Patel Praxisbuch Unsupervised Learning jetzt bestellen!

Weitere Infos & Material


Einleitung
Eine kurze Geschichte des maschinellen Lernens
Maschinelles Lernen ist ein Teilgebiet der künstlichen Intelligenz (KI, engl. Artificial Intelligence, AI), bei der Computer aus Daten lernen – üblicherweise, um ihre Performance für eine eng definierte Aufgabe zu verbessern –, ohne explizit dafür programmiert zu werden. Der Begriff maschinelles Lernen (engl. Machine Learning) wurde schon 1959 geprägt (von Arthur Samuel, einer Legende auf dem Gebiet der KI), doch im 21. Jahrhundert gab es nur wenige größere kommerzielle Erfolge im maschinellen Lernen zu verzeichnen. Stattdessen fristete das Gebiet ein Nischendasein im Rahmen wissenschaftlicher Forschungen an Universitäten. Schon ziemlich früh (bereits in den 1960er-Jahren) waren viele Mitglieder der KI-Community viel zu optimistisch hinsichtlich der Zukunft der künstlichen Intelligenz. Forscher dieser Zeit, wie zum Beispiel Herbert Simon und Marvin Minsky, behaupteten, dass die KI innerhalb von Jahrzehnten das Niveau der menschlichen Intelligenz erreichen würde:1 Innerhalb von zwanzig Jahren werden Maschinen in der Lage sein, jede Arbeit zu verrichten, zu der ein Mensch fähig ist. – Herbert Simon, 1965 In drei bis acht Jahren werden wir eine Maschine mit der allgemeinen Intelligenz eines durchschnittlichen Menschen haben. – Marvin Minsky, 1970 Von ihrem Optimismus geblendet, konzentrierten sich Forscher auf Projekte der sogenannten starken KI oder allgemeinen künstlichen Intelligenz (engl. Artificial General Intelligence, AGI), um damit KI-Agenten zu schaffen, die Problemlösung, Wissensdarstellung, Lernen und Planen, Natural Language Processing, Wahrnehmung und Bewegungskontrolle realisieren können. Zwar half dieser Optimismus, beträchtliche Mittel von großen Akteuren wie z.B. dem Verteidigungsministerium zu beschaffen, doch nahmen diese Forscher zu anspruchsvolle Probleme in Angriff und waren letztlich zum Scheitern verurteilt. Die KI-Forschung schaffte nur gelegentlich den Sprung vom akademischen Umfeld in die Industrie, und es folgte eine Reihe sogenannter KI-Winter. In diesen KI-Wintern (eine Analogie, die sich am nuklearen Winter in der Ära des Kalten Kriegs orientierte) gingen das Interesse an der KI und ihre Finanzierung zurück. Gelegentlich auftretende Hype-Zyklen um KI hielten kaum an. Anfang der 1990er-Jahre hatte das Interesse an der KI und ihrer Finanzierung einen Tiefpunkt erreicht. KI ist zurück, aber warum gerade jetzt?
KI ist in den letzten zwei Jahrzehnten mit Vehemenz wieder aufgetaucht – zuerst als rein akademischer Interessenbereich und jetzt inzwischen als ausgewachsenes Gebiet, das die hellsten Köpfe von Universitäten wie auch von Unternehmen in ihren Bann zieht. Drei entscheidende Entwicklungen stehen hinter diesem Wiederaufleben: Durchbrüche bei den Algorithmen für maschinelles Lernen, die Verfügbarkeit großer Datenbestände und superschnelle Computer. Erstens haben Forscher ihre Aufmerksamkeit auf eng definierte Teilprobleme der starken KI gerichtet, auch als schwache KI bezeichnet, anstatt sich auf übermäßig ambitionierte starke KI-Projekte zu versteifen. Dieser Fokus auf die Verbesserung von Lösungen für eng definierte Aufgaben führte zu algorithmischen Durchbrüchen, die den Weg für erfolgreiche kommerzielle Anwendungen ebneten. Viele dieser Algorithmen – oftmals ursprünglich an Universitäten oder privaten Forschungseinrichtungen entwickelt – wurden schnell als Open Source zugänglich gemacht, was die Akzeptanz dieser Technologien durch die Industrie beschleunigte. Zweitens wurde die Datenerfassung zu einem Schwerpunkt für die meisten Unternehmen, und die Kosten für das Speichern der Daten fielen aufgrund der Fortschritte in der digitalen Datenspeicherung drastisch. Dank des Internets wurden Unmengen von Daten auch in einem noch nie gekannten Umfang weithin und öffentlich zugänglich. Drittens wurden die Computer immer leistungsfähiger und über die Cloud verfügbar, sodass KI-Forscher ihre IT-Infrastruktur bei Bedarf einfach und preiswert skalieren konnten, ohne zunächst riesige Mittel in Hardware zu investieren. Das Entstehen der angewandten KI
Die oben genannten Kräfte haben die KI aus dem akademischen Umfeld in die Industrie befördert und dazu beigetragen, das Interesse und die Finanzierung von Jahr zu Jahr auf ein höheres Niveau zu heben. KI ist nicht mehr nur ein theoretischer Interessenbereich, sondern ein vollwertiges Anwendungsgebiet. Abbildung 1 zeigt ein Diagramm aus Google Trends, das das wachsende Interesse am maschinellen Lernen im Verlauf der letzten fünf Jahre darstellt. Abbildung 1: Interesse am maschinellen Lernen in den letzten Jahren KI gilt heute als bahnbrechende horizontale Technologie – ähnlich dem Aufkommen von Computern und Smartphones –, die in den nächsten zehn Jahren erhebliche Auswirkungen auf jede einzelne Branche haben wird.2 Zu den erfolgreichen kommerziellen Anwendungen, die sich auf maschinelles Lernen stützen, gehören unter anderem optische Zeichenerkennung, Filtern von Spam-Mails, Bildklassifizierung, Computervision, Spracherkennung, maschinelle Übersetzung, Gruppensegmentierung und Clustering, Generieren von synthetischen Daten, Anomalieerkennung, Prävention von Cyberkriminalität, Erkennung von Kreditkartenbetrug, Erkennung von Betrug im Internet, Zeitreihenvorhersage, Natural Language Processing, Brett- und Videospiele, Dokumentklassifizierung, Empfehlungssysteme, Suchen, Robotik, Onlinewerbung, Sentimentanalyse, DNA-Sequenzierung, Finanzmarktanalyse, Informationsgewinnung, Beantwortung von Fragen und Entscheidungsfindung im Gesundheitswesen. Meilensteine der angewandten KI in den letzten 20 Jahren
Die hier beschriebenen Meilensteine halfen, die KI von einem meist akademischen Gesprächsthema zu einem wichtigen Bestandteil der heutigen Technologie zu machen. 1997: Deep Blue, ein KI-Bot, der seit Mitte der 1980er-Jahre entwickelt wird, schlägt den Schachweltmeister Garry Kasparov in einem medienwirksamen Schachereignis. 2004: Die DARPA führt die DARPA Grand Challenge ein, einen in der Mojave-Wüste stattfindenden Wettbewerb für unbemannte Landfahrzeuge. Im Jahr 2005 erhält Stanford den Hauptpreis. Im Jahr 2007 veranstaltet die Carnegie Mellon University diesen Wettbewerb in einem städtischen Umfeld. Bis 2015 haben viele große Technologieunternehmen, darunter Tesla, Waymo von Alphabet und Uber, finanziell gut ausgestattete Programme aufgelegt, um eine allgemein verfügbare Selbstfahrtechnologie aufzubauen. 2006: Geoffrey Hinton von der University of Toronto stellt einen schnellen Lernalgorithmus vor, um neuronale Netze mit vielen Schichten zu trainieren, und leitet damit die Deep-Learning-Revolution ein. 2006: Netflix startet den mit einer Million Dollar dotierten Wettbewerb Netflix Prize, bei dem die Teams durch maschinelles Lernen die Genauigkeit ihres Empfehlungssystems um wenigstens 10% verbessern sollen. Im Jahr 2009 hat zum ersten Mal ein Team diesen Preis gewonnen. 2007: KI erreicht übermenschliche Performance im Damespiel, was von einem Team der University of Alberta erreicht wurde. 2010: ImageNet startet einen jährlichen Wettbewerb – die ImageNet Large Scale Visual Recognition Challenge (ILSVRC) –, bei der Teams mithilfe von Algorithmen des maschinellen Lernens Objekte in einem großen, gut gepflegten Bild-Dataset korrekt erkennen und klassifizieren. Sowohl Akademiker als auch Technologieriesen sind stark daran interessiert. Der Klassifizierungsfehler fällt von 25% im Jahr 2011 auf nur wenige Prozent bis 2015, was Fortschritten bei tiefen Faltungsnetzen zu verdanken ist. Dies führt zu kommerziellen Anwendungen von Computervision und Objekterkennung. 2010: Microsoft bringt die Steuerung Kinect für die Spielkonsole Xbox 360 auf den Markt. Die vom Computervision-Team bei Microsoft Research entwickelte Kinect kann Körperbewegungen des Menschen verfolgen und in Softwarebefehle zur Steuerung von Videospielen übersetzen. 2010: Siri, einer der ersten allgemein verfügbaren digitalen Sprachassistenten, wird von Apple übernommen und im Oktober 2011 als Teil des iPhone 4S veröffentlicht. Schließlich führt Apple Siri für alle seine Produkte ein. Auf der Basis von Convolutional Neural Networks (Faltungsnetzen) und rekurrenten neuronalen Long-Short-Term-Memory-Netzwerken beherrscht Siri sowohl die Spracherkennung als auch das Natural Language Processing. Schließlich greifen auch Amazon, Microsoft und Google mit Alexa (2014), Cortana (2014) sowie Google Assistant (2016) ins Rennen ein. 2011: IBM Watson, ein Fragen beantwortender KI-Agent, der von einem Team unter der Leitung von David Ferruci entwickelt wurde, schlägt die ehemaligen Jeopardy!-Gewinner Brad Rutter und Ken Jennings. IBM...


Ankur A. Patel ist Vice President Data Science bei 7Park Data, einem Portfolio-Unternehmen von Vista Equity Partners. Bei 7Park Data verwenden Ankur und sein Data-Science-Team alternative Daten, um Datenprodukte für Hedge-Fonds und Unternehmen sowie Machine Learning als Service (MLaaS) für Geschäftskunden zu entwickeln.


Ihre Fragen, Wünsche oder Anmerkungen
Vorname*
Nachname*
Ihre E-Mail-Adresse*
Kundennr.
Ihre Nachricht*
Lediglich mit * gekennzeichnete Felder sind Pflichtfelder.
Wenn Sie die im Kontaktformular eingegebenen Daten durch Klick auf den nachfolgenden Button übersenden, erklären Sie sich damit einverstanden, dass wir Ihr Angaben für die Beantwortung Ihrer Anfrage verwenden. Selbstverständlich werden Ihre Daten vertraulich behandelt und nicht an Dritte weitergegeben. Sie können der Verwendung Ihrer Daten jederzeit widersprechen. Das Datenhandling bei Sack Fachmedien erklären wir Ihnen in unserer Datenschutzerklärung.