Name Matching Experiment
(Teil 6)

Eurospider hat mit der beliebten Levenshtein-Distanz ein einfaches Experiment durchgeführt. Mit rund 600 Namen aus den Medien wurden Treffer in einer mehr als 1000 mal grösseren Testdatenbank gesucht. Die Testdatenbank enthält zu jedem der 600 Namen den vollständig korrekten Namen, welcher vom Mediennamen abweicht. Für jeden der 600 Namen wurden die gefunden Namen nach aufsteigender Levenshtein-Distanz rangiert. Schliesslich wurden Ausbeute und Präzision ermittelt für den Fall, dass die ersten n Ränge gesichtet werden. Was kann man daraus lernen?

chart both

Wir sehen, dass je mehr Ränge gesichtet werden, desto mehr korrekte Treffer (True Positives) werden gefunden. Wie erwartet sinkt die Präzision. Das heisst dass je mehr Ränge gesichtet werden, desto mehr falsche Treffer (False Positives) werden gefunden. Das starke Abfallen der Präzisionskurve bedeutet, dass der Verifikationsaufwand signifikant steigt.

Totalrevision Datenschutzgesetz

Der Vorentwurf des totalrevidierten Datenschutzgesetzes befindet sich derzeit in der Vernehmlassung. Er bezweckt die Stärkung des Datenschutzes durch erhöhte Transparenz bei der Datenbearbeitung und mehr Kontrollmöglichkeiten der betroffenen Personen. Griffige Sanktionen und Handlungspflichten der verantwortlichen Personen sollen dabei die korrekte Umsetzung gewährleisten.

Links: Entwurf, Bericht

Eurospider Information Technology AG
Schaffhauserstrasse 18
8006 Zürich

 

Cookies erleichtern die Bereitstellung unserer Dienste. Mit der Nutzung unserer Dienste erklären Sie sich damit einverstanden, dass wir Cookies verwenden.
Weitere Informationen Ok Ablehnen