Auswirkungen von Deep Natural Anonymization auf das Training von Machine Learning Modellen

12. März 2021

Management Summary

Ein entscheidendes Problem beim Training von Machine Learning Modellen für die Bilderkennung ist die Erfordernis einer großen Menge visueller Daten, die den jeweiligen Datenschutzbestimmungen entsprechen. Unsere Deep Natural Anonymization (DNAT) anonymisiert automatisch personenbezogene Informationen in Bild- und Videodaten, während zugleich relevante visuelle Informationen sowie der Kontext erhalten bleiben. Diese Analyse zeigt, dass Deep Natural Anonymization im Vergleich zur Verwendung der Originalbilder keine signifikanten Auswirkungen auf das Training von Machine Learning Modellen hat. Es ist ein wertvolles Instrument zur Gewährleistung des Datenschutzes beim Training von maschinellen Lernmodellen für Bilddaten.

Was ist Deep Natural Anonymization (DNAT) und warum ist es wichtig?

DNAT ist eine fortschrittliche Lösung zum Schutz personenbezogener Informationen (PII) in Bild- und Videodaten. Sie erkennt und anonymisiert  automatisch personenbezogene Informationen wie Gesichter und Nummernschilder und gewährleistet so den Datenschutz auch im Rahmen des maschinellen Lernens. Bei den gängigen Video-Redaktionstechniken werden PII mittels Unschärfe unkenntlich gemacht, was zu einem Verlust von Informationen und des Kontexts des Bildes führt. Aus diesem Grund verwenden wir DNAT: Es ersetzt die ursprünglichen PII durch künstlich erzeugte PII und sorgt für ein natürliches Aussehen sowie den Erhalt der Inhaltsinformationen des Bildes. 


Beispielbild aus dem Cityscapes-Datensatz nach der Verarbeitung durch Deep Natural Anonymization.

Wie schätzen Sie die Auswirkungen von DNAT auf das maschinelle Lernen ein?  

Wir wollten sowohl unveränderte Daten als auch anonymisierte Daten verwenden, um die Unterschiede in der Modellgenauigkeit zu verstehen. Da wir die Hyperparameter für beide Trainingspfade gleich gehalten haben, können wir feststellen, dass die Unterschiede, falls es welche gibt, mit den Unterschieden zwischen den unveränderten und anonymisierten Daten zusammenhängen. 

Wir haben uns für einen standardisierten, öffentlich zugänglichen Datensatz namens Cityscapes entschieden. Er enthält Bilder von Straßenszenen, aufgenommen an verschiedenen Orten, bei unterschiedlichen Witterungsbedingungen und zu verschiedenen Zeiten. Wir haben DNAT von brighter AI verwendet, um eine anonymisierte Kopie des gesamten Cityscapes-Datensatzes zu erstellen. 

Wir haben für unseren Versuch ein Erkennungs- und Instanz-Segmentierungsmodell namens Mask R-CNN gewählt, vor allem aufgrund seiner Anwendbarkeit auf unseren Datensatz und seiner hervorragenden Performance bei mehreren öffentlichen Benchmarks.

Was sind die Ergebnisse dieser Analyse?

Anhand von Versuchen kommen wir zu dem Schluss, dass DNAT von brighter AI keinen signifikanten Einfluss auf die Genauigkeit des Trainings eines modernen maschinellen Lernmodells wie Mask R-CNN anhand des öffentlichen Cityscapes-Datensatzes hat. Wir zeigen, dass der Unterschied in der mittleren durchschnittlichen Genauigkeit (mAP) zwischen dem Training eines solchen Modells anhand von Originaldaten und anhand von anonymisierten Daten vernachlässigbar ist. 

Daten, die mit Deep Natural Anonymization von brighter AI anonymisiert wurden, behalten während der Modellüberprüfung für maschinelles Lernen das gleiche Maß an Genauigkeit bei wie die unveränderten Daten. 

The accuracy of brighter AI's Deep Natural Anonymization

Andreea Mandeal
Head of Marketing
andreea.mandeal@brighter.ai