E-Book, Deutsch, 180 Seiten, eBook
Lisbach Linguistisches Identity Matching
2011
ISBN: 978-3-8348-9791-6
Verlag: Vieweg & Teubner
Format: PDF
Kopierschutz: 1 - PDF Watermark
Paradigmenwechsel in der Suche und im Abgleich von Personendaten
E-Book, Deutsch, 180 Seiten, eBook
ISBN: 978-3-8348-9791-6
Verlag: Vieweg & Teubner
Format: PDF
Kopierschutz: 1 - PDF Watermark
Identity Matching ist die Grundlage für die Suche mit und nach Personendaten. Und die betreibt heutzutage die ganze Welt: Banken suchen Geldwäscher in ihren Kundendateien, Polizeibehörden überprüfen Verdächtige mit ihren Registern und Privatpersonen stöbern alte Bekannte im Web auf. Mittels Identity Matching besorgen sich Studenten Fachartikel, Journalisten Nachrichten, Vermieter Bonitätsauskünfte und Verkäufer ihre nächsten Marketing-Opfer. Das Problem bisher ist: Sobald wir den Namen nicht genau so schreiben, wie er in der Quelle repräsentiert ist, finden wir ihn nicht. Jetzt hebt die Linguistik das Identity Matching auf ein neues Niveau. Mit dem Wissen über Sprachen, Schriften und globale Namenskonventionen ist eine zugleich präzise und zuverlässige Personensuche möglich. Dieses Buch beschreibt, was linguistisches Identity Matching ist, und gibt Ihnen praktische Tipps, wie auch Sie davon profitieren können.
Dr. Bertrand Lisbach ist CEO der Linguistic Search Solutions AG. Er studierte Psychologie, Sprachen und Informationswissenschaften und gilt als Vordenker und Experte auf dem Gebiet des linguistischen Identity Matching. Zu seiner international ausgerichteten Kundschaft zählen Softwareproduzenten, Behörden und Banken, die er berät und in der Produktevaluation und Lösungsumsetzung unterstützt.
Zielgruppe
Professional/practitioner
Autoren/Hrsg.
Weitere Infos & Material
1;Geleitwort;5
2;Inhaltsverzeichnis;7
3;Einleitung: Paradigmenwechsel im Identity Matching;12
3.1;Ein Elementarprozess in Wirtschaft und Gesellschaft;12
3.2;Die linguistische Herausforderung;13
3.3;Für wen wurde dieses Buch geschrieben?;15
4;Teil I: Grundlagen des linguistischen Identity Matching;17
4.1;1 Grundkonzepte;19
4.1.1;1.1 Identity Matching und Name Matching;19
4.1.2;1.2 Datenprofile und Suchabfragen;20
4.1.3;1.3 True und False Positives, True und False Negatives;22
4.1.4;1.4 Trefferquote und Genauigkeit (Recall und Precision);23
4.1.5;1.5 Linguistisches Identity Matching;23
4.2;2 Anwendungsfelder;26
4.2.1;2.1 Know Your Customer (KYC) und Enhanced Due Diligence (EDD;26
4.2.2;2.2 Bekämpfung von Geldwäsche (AML) und Terrorismusfinanzierung(CFT);27
4.2.3;2.3 Customer Data Integration (CDI) und Daten-Deduplizierung;29
4.2.4;2.4 Customer Relationship Management (CRM);31
4.2.5;2.5 Kriminalitätsbekämpfung und Strafverfolgung;32
4.2.6;2.6 Informationsdienstleistungen;33
4.2.7;2.7 Fazit;34
4.3;3 Grundlegendes zu Personennamen;35
4.3.1;3.1 Drei Merkmale von Personennamen: Unterscheidungskraft, Konstanz, Bekanntheitsgrad;35
4.3.2;3.2 Personennamensysteme in ihrer historischer Entwicklung;36
4.3.2.1;3.2.1 Rufnamen und Beinamen;37
4.3.2.2;3.2.2 Patronyme und Metronyme;38
4.3.2.3;3.2.3 Vornamen und Familiennamen;39
4.3.3;3.3 Personennamensysteme der Welt;40
4.3.3.1;3.3.1 Westliche Personennamen;40
4.3.3.2;3.3.2 Russische Personennamen;42
4.3.3.3;3.3.3 Arabische Personennamen;43
4.3.3.4;3.3.4 Chinesische Personennamen;45
4.3.4;3.4 Implikationen für das Name Matching;46
4.4;4 Transkription;48
4.4.1;4.1 Transkription, Transliteration und Translation;48
4.4.2;4.2 Romanisierung;51
4.4.3;4.3 Romanisierung kyrillischer Namen;53
4.4.3.1;4.3.1 Geschichte und Verbreitung des kyrillischen Alphabets;53
4.4.3.2;4.3.2 Variationsquellen;55
4.4.4;4.4 Romanisierung arabischer Namen;57
4.4.4.1;4.4.1 Geschichte und Verbreitung des arabischen Alphabets;57
4.4.4.2;4.4.2 Variationsquellen;58
4.4.5;4.5 Romanisierung chinesischer Namen;62
4.4.5.1;4.5.1 Geschichte und Verbreitung der chinesischen Schrift;62
4.4.5.2;4.5.2 Variationsquellen;63
4.4.6;4.6 Fazit: Transkription als die Achillesferse des Name Matching;65
4.5;5 Abgeleitete Namensformen;68
4.5.1;5.1 Verniedlichungsformen;68
4.5.2;5.2 Namen in Übersetzung;70
4.5.3;5.3 Abgeleitete und übersetzte Formen in Namen juristischer Personen;72
4.6;6 Phonetisches Matchen;74
4.6.1;6.1 Homophonie;74
4.6.2;6.2 Das Matchen von Homophonen;75
4.7;7 Tippfehler;78
4.7.1;7.1 Begriffliche Abgrenzung: Variationen, Schreibfehler, Tippfehler;78
4.7.2;7.2 Motorisch bedingte Tippfehler und die Rolle der Computertastatur;79
4.7.3;7.3 Optical Character Recognition (OCR);80
4.7.4;7.4 Fazit: Tippfehler im Name Matching;81
5;Teil II: Name-Matching-Verfahren;82
5.1;8 Name-Matching-Verfahren der 1. Generation;83
5.1.1;8.1 Einleitung;83
5.1.2;8.2 G1 String Comparison: Levensthein Distance und n-gram;84
5.1.2.1;8.2.1 Ähnlichkeit und Editieroperationen;84
5.1.2.2;8.2.2 Brauchbarkeit der Levenshtein Distance im Name Matching;86
5.1.2.3;8.2.3 Vergleich von Substrings mit n-gram-Verfahren;87
5.1.2.4;8.2.4 Brauchbarkeit von n-gram-Verfahren im Name Matching;88
5.1.3;8.3 G1 Phonetic Encoding mit Soundex;89
5.1.3.1;8.3.1 Phonetische Similarity Keys;89
5.1.3.2;8.3.2 Brauchbarkeit von Soundex im Name Matching;91
5.1.4;8.4 G1-Suche mit Varianten: Thesauri;92
5.1.4.1;8.4.1 Ein Katalog von Namensvariationen;92
5.1.4.2;8.4.2 Brauchbarkeit von Thesauri im Name Matching;93
5.1.5;8.5 Brauchbarkeit der G1-Verfahren im Überblick;94
5.1.6;8.6 Warum G1-Verfahren heute noch verbreitet sind;97
5.1.6.1;8.6.1 Name Matching als Mitgift;97
5.1.6.2;8.6.2 Strukturprobleme auf Anbieterseite;98
5.1.6.3;8.6.3 Fehlende Expertise auf der Käuferseite;99
5.1.6.4;8.6.4 Fehlen eines normativen Standards;100
5.2;9 Name-Matching-Verfahren der 2. Generation;102
5.2.1;9.1 Einleitung;102
5.2.2;9.2 G2 String Comparison: Erweiterungen von Levenshtein und n-gram;102
5.2.2.1;9.2.1 Erweiterungen;102
5.2.2.2;9.2.2 Brauchbarkeit von G2 String Comparison im Name Matching;103
5.2.3;9.3 G2 Phonetic Encoding: Erweiterungen von Soundex;104
5.2.3.1;9.3.1 Erweiterungen;104
5.2.3.2;9.3.2 Brauchbarkeit von G2-Phonetic Encoding im Name Matching;105
5.2.4;9.4 G2-Suche mit Varianten: Generative Algorithmen;106
5.2.4.1;9.4.1 Konzept;106
5.2.4.2;9.4.2 Anwendungsbeispiele;107
5.2.4.3;9.4.3 Brauchbarkeit generativer Algorithmen im Name Matching;110
5.2.5;9.5 Brauchbarkeit der G2-Verfahren im Überblick;111
5.2.6;9.6 Fazit: Drei Jahrzehnte Name Matching;113
5.3;10 Name-Matching-Verfahren der 3. Generation;115
5.3.1;10.1 Einleitung;115
5.3.2;10.2 Grundanforderungen an G3-Verfahren;115
5.3.2.1;10.2.1 Allgemeine Grundanforderungen;116
5.3.2.2;10.2.2 Spezielle Grundanforderungen;117
5.3.3;10.3 Multilinguale Similarity Keys für das Matchen von Transkriptionsvarianten und Homophonen;120
5.3.3.1;10.3.1 Komplexität durch Sprachenvielfalt;120
5.3.3.2;10.3.2 Komplexität durch Suchgenauigkeitsstufen;121
5.3.3.3;10.3.3 Komplexität durch Berücksichtigung des Zeichenkontextes;122
5.3.4;10.4 Thesauri für Vornamensformen und Spezialfälle;123
5.3.5;10.5 Generative Algorithmen für Tippfehler;124
5.3.6;10.6 Integration der Verfahren;126
5.3.7;10.7 Fazit;130
5.4;11 Benchmarkstudie: Die Verfahren im Vergleich;133
5.4.1;11.1 Datengrundlage und Testnamen;133
5.4.2;11.2 Verfahren und Versuchsbedingungen;134
5.4.3;11.3 Vorgehen und Ergebnisse;136
5.4.3.1;11.3.1 G1-Verfahren;136
5.4.3.2;11.3.2 G2-Verfahren;137
5.4.3.3;11.3.3 G3-Verfahren;139
5.4.3.4;11.3.4 Limitationen;140
5.4.3.5;11.3.5 Schlussfolgerungen;141
6;Teil III: Bereit für den Paradigmenwechsel;143
6.1;12 G3 Name Matching und Identity Matching;144
6.1.1;12.1 Raumbezogene Identitätsattribute;144
6.1.1.1;12.1.1 Länderdaten: Nationalität, Geburtsland, Gründungsland;145
6.1.1.2;12.1.2 Oikonyme: Namen von Städten, Stadtteilen und Ortschaften;147
6.1.1.3;12.1.3 Adressen;148
6.1.2;12.2 Zeitbezogene Identitätsattribute;149
6.1.3;12.3 Klassifikatorische Identitätsattribute;151
6.1.4;12.4 Identifikationscodes;153
6.1.5;12.5 Integration der Einzelvergleiche;154
6.1.5.1;12.5.1 Das Filtermodell;154
6.1.5.2;12.5.2 Das Gewichtungsmodell;155
6.1.5.3;12.5.3 Kombinierte Modelle;156
6.1.6;12.6 Fazit;157
6.2;13 Tipps zur Tool-Evaluation;159
6.2.1;13.1 Einleitung;159
6.2.2;13.2 Erhebung der Anforderungen;161
6.2.3;13.3 Long List, Short List und Request for Information;162
6.2.4;13.4 Testgegenstand und Testdesign;164
6.2.5;13.5 Auswahl der Testdaten und der Test-Queries;165
6.2.6;13.6 Vorabstimmung mit dem Anbieter;168
6.2.7;13.7 Auswertung;170
6.2.7.1;13.7.1 Trefferquote und Präzision;170
6.2.7.2;13.7.2 Trefferbewertung;171
6.2.7.3;13.7.3 Konfiguration;171
6.2.8;13.8 Schlussbetrachtung;172
6.3;14 The Linguistic Search Standard;174
6.3.1;14.1 Die Notwendigkeit eines Suchstandards;174
6.3.2;14.2 Die Prinzipien;176
6.3.2.1;14.2.1 Prinzipien 1-6 (Match Level Precise);177
6.3.2.2;14.2.2 Zusatzprinzipien 7-10 (Match Level Close);178
6.3.2.3;14.2.3 Zusatzprinzipien 11-13 (Match Level Broad);179
6.3.3;14.3 Der Linguistic Search Standard im Original-Wortlaut;179
7;Literatur;186
8;Sachwortverzeichnis;187