Gesichts-Scanning: Wenn Maschinen Menschen erkennen

Gesichts-Scanning: Wenn Maschinen Menschen zu (er)kennen glauben ©himberry / photocase.de

Die automatische Gesichtserkennung kommt immer häufiger zum Einsatz – auch in Deutschland. In Berlin erprobt die Bundespolizei seit 1. August 2017 eine neue Überwachungstechnik am Bahnhof Südkreuz. 300 Testpersonen haben sich bereit erklärt, ihr Gesicht freiwillig für eine intelligente Videoüberwachung zur Schau zu stellen.

Und jüngst machten die Supermarktkette Real und die Deutsche Post Schlagzeilen, weil sie Kunden vor einem Monitor mit einer ähnlichen Technik scannten, um ihnen dann personenbezogene Werbung zu präsentieren. Was bei uns noch in den Anfängen steckt, gehört in Amerika bereits schon seit Jahren zum Alltag.

Die Bertelsmann Stiftung hat im Mai dazu das Arbeitspapier „Wenn Maschinen Menschen bewerten“ herausgegeben. Mich hat darin besonders die Vorgehensweise in den USA bewegt. Dort wird seit Jahren mit Hilfe von Gesichtserkennung gegen Kriminalität ermittelt. Das FBI gleicht Bildmaterial von Straftätern automatisiert mit 411 Millionen Bildern aus Führerschein-, Pass- und Visadaten ab, um mögliche Verdächtige zu identifizieren. Hier das (zugegebene sehr lange) Kapitel , das Chancen und Risiken der automatischen Gesichtserkennung einleuchtend darstellt.

Ausschnitt der Studie der Bertelsmann Stiftung:

Umfassende Evaluation gewährleisten: Automatische Gesichtserkennung

Inhaltsverzeichnis:

Output: Bis zu 50 Vorschläge für die gesuchte Person
Datenbasis und Entscheidungslogik: „criminal identities“ vs. „civil identities“
Konsequenzen: 64 Millionen Menschen in einer fortwährenden Gegenüberstellung
Evaluation: Technisch unzureichende Evaluierung, fehlender juristischer Rahmen
Diskussion: Umfassende Evaluation dauert an und analysiert mittelbare Folgen
Situation und Relevanz in Deutschland

Die US-Bundespolizei FBI betreibt seit 2008 ein System, das per Gesichtserkennung Fotos unbekannter Personen analysiert und Übereinstimmungen in verschiedenen Datenbanken mit gut 400 Millionen Porträts von US-Bürgern und Ausländern (z. B. aus Visaanträgen) sucht. Der US-Rechnungshof kritisiert, dass Zuverlässigkeit und Fehlerquote des gesamten Systems nie getestet worden sind (United States Government Accountability Office 2016).

Output: Bis zu 50 Vorschläge für die gesuchte Persona

Ermittlungsbehörden, denen zu einer konkreten Straftat Bilder von Verdächtigen vorliegen, können das FBI bitten, diese Bilder mit seiner bestehenden Datenbank abzugleichen. Ziel einer solchen Abfrage ist entweder die Bestätigung eines bereits bestehenden Verdachts oder die Bitte um eine Liste möglicher Verdächtiger, deren hinterlegte biometrische Kriterien zu denen des gesuchten Verdächtigen passen. Abfragen können grundsätzlich nur über das FBI gestellt werden. Seit 2011 können im Rahmen eines Pilotprojektes jedoch auch Ermittlungsbehörden aus sieben einzelnen Bundesstaaten direkt auf die Datenbank zugreifen – zwischen 2011 und 2015 führten sie mehr als 20.000 Suchen durch (interessanterweise rangiert die Anzahl der Anfragen pro Bundesstaat von 20 bis 14.000).

Wird eine Suchabfrage gestellt, vergleicht der Algorithmus das Foto der gesuchten Person mit den abgelegten biometrischen Informationen und generiert eine Liste von zwei bis 50 Vorschlägen, wer die abgebildete Person sein könnte. Diese Informationen werden im Falle eines indirekten Zugriffs von sogenannten „biometrischen Analysten“ manuell überprüft und auf einen bis zwei Kandidaten reduziert, die dann vom FBI an die anfragende Organisation (z. B. lokale Polizei) weitergegeben werden können. Beim FBI arbeiteten 2015 29 solcher Analysten. Im Falle eines direkten Zugriffs durch eine bundesstaatliche Ermittlungsbehörde ist dieser Zwischenschritt nicht gewährleistet. Das Verfahren wird nicht nur für die Ermittlungen bei Gewaltverbrechen verwendet, sondern auch bei Diebstahl oder Versicherungsbetrug (a.a.O.). Ermittler entscheiden auf Basis der vorgelegten Verdachtsliste, ob und gegen welche der angegebenen Personen sie weitere Schritte einleiten.

Datenbasis und Entscheidungslogik: „criminal identities“ vs. „civil identities“

Die Datenbank wird durch freiwillige Einsendungen der verschiedenen US-Behörden gespeist und umfasst derzeit mehr als 30 Millionen Bilder, die nach Vorbestrafungen in „criminal identities“ und „civil identities“ unterschieden werden: Erstere sind Bilder, die im Rahmen von Verhaftungen, Verurteilungen oder Gefängnisstrafen erstellt wurden. Mehr als 80 Prozent der Aufnahmen gehören zu dieser Kategorie. „civil identities“ stammen aus Personalakten, Militärdienst, Freiwilligendienst oder Einwanderungspapieren. Jedes Bild wird mit einem vollständigen Set an Fingerabdrücken verbunden, sodass Duplikate automatisch verknüpft werden (auch zwischen den Identitäten). Einmal eingestellte Bilder können aus der Datenbank nur durch die einsendende Organisation oder per Gerichtsbeschluss entfernt werden. Über eine spezielle Abteilung (FACE) kann das FBI zudem auf andere staatliche Datenbanken zugreifen (bspw. Bilder aus Führerscheinen und Visa-Anträgen). Inklusive dieser externen Datenbanken beläuft sich die Zahl der verfügbaren Bilder auf mehr als 411 Millionen – und betrifft rund 64 Millionen Amerikaner (Garvie, Bedoya und Frankle 2016).

Die Entscheidungslogik besteht aus zwei Stufen: Eingesendete Bilder werden auf biometrische Kriterien hin analysiert und in der Datenbank abgelegt. Zivile Datensätze kann nur vom FBI durchsucht werden, während Anfragen zu den Datensätzen vorbestrafter Personen allen Strafverfolgungsbehörden offenstehen, die auch Bilder einsenden. Sofern allerdings zivile mit kriminellen Datensätzen verbunden sind, werden beide angezeigt. Die Liste mit den vielversprechendsten Matches wird dann im Falle einer indirekten Anfrage zur Human Analysis weitergeleitet (s. „Output“), bei direkten Anfragen an die das System nutzende Ermittlungsbehörde (United States Government Accountability Office 2016). Über die verwendeten Kriterien des Algorithmus ist nichts bekannt.

Konsequenzen: 64 Millionen Menschen in einer fortwährenden Gegenüberstellung

Im Falle einer fälschlichen Zuordnung einer Person aus der Datenbank zu einem Fahndungsfoto kann die vorgeschlagene Person zu Unrecht verdächtigt werden. Je nach Bundesstaat gilt eine positive Übereinstimmung sogar als Beweismittel vor Gericht. Somit spielt der Algorithmus eine Rolle bei der Entscheidung über Freiheit oder Gefängnisstrafe von Bürgern. Aber schon „nur“ auf der Ergebnisliste zu stehen, hat diverse Konsequenzen für die Betroffenen: Die so erhaltenen Hinweise können als Grundlage für Hausdurchsuchungen, Datenabfragen bei Internetprovidern und Banken sowie Verhaftungen genutzt werden.

Hinzu kommen ethnische Diskriminierungen: So verfügt die Datenbank der Vorbestraften über mehr Bilder von Menschen mit weißer als mit schwarzer Hautfarbe. Das führt dazu, dass der Algorithmus in ersterer Population mit höherer Wahrscheinlichkeit Übereinstimmungen findet als in letzterer.

Nicht zuletzt bedeutet die Verwendung von Gesichtserkennungsalgorithmen juristisch eine Einschränkung der Unschuldsvermutung auf zwei Ebenen: Zum einen reicht der Vorschlag des Algorithmus als Anfangsverdacht aus, um Ermittlungen gegen die betroffene Person einzuleiten. Zum anderen kann eine positive Übereinstimmung in manchen Bundesstaaten als Schuldbeweis gewertet werden. Die Falsifikationsrate des verwendeten Algorithmus beschreibt die Wahrscheinlichkeit, unschuldige Bürger auf Basis eines womöglich falsch zugeordneten Datenbankeintrages zu verdächtigen oder sogar zu verhaften. Daher sollte bereits vor Implementierung eines solchen Algorithmus eine gesellschaftliche Debatte über den akzeptablen Grenzwert dieser Rate geführt werden. Es ist eine grundsätzliche Frage der Fairness, die aufgrund der Eigenarten von ADM-Prozessen früh zu operationalisieren ist: Will eine Gesellschaft zu Unrecht beschuldigte Bürger in Kauf nehmen? Wie viele? Und wie minimiert man das so verursachte Leid?

Evaluation: Technisch unzureichende Evaluierung, fehlender juristischer Rahmen

Verschiedene Kontrollsysteme wurden bereits vor dem Einsatz des Next Generation Identification-Interstate Photo System (NGI-IPS) aufgestellt, um die ethische Unbedenklichkeit einer verwendeten Technologie sicherzustellen: So fordert das Department of Justice (DOJ) für jedwede Technologie, die Bürgerdaten sammelt, ein „Privacy Impact Assessment“ (PIA) ein. Für das verwendete NGI-IPS wurde diese jedoch nur für das ursprünglich eingeführte, funktional sehr viel weniger umfangreiche System 2011 erstellt. Die seitdem erfolgten Updates und Erweiterungen wurden erst im September 2015 überprüft.

Zudem evaluierte das FBI intern den Erfolg des neuen Algorithmus: Dazu sollten sowohl die Erkennungsrate (Wahrscheinlichkeit, dass die gesuchte Person unter den 50 vorgeschlagenen Übereinstimmungen ist) als auch die Fehlidentifikationsrate (Wahrscheinlichkeit, dass jemand zu Unrecht als Übereinstimmung vorgeschlagen wird) überprüft werden. Für ersteren Test wurde eine Trefferquote von 85 Prozent als akzeptabel festgelegt (dies entspricht allein bei den extern veranlassten Suchen immer noch 3000 ergebnislosen Listen). Sofern die gesuchte Person also in der Datenbank vorkommt, sollte sie in 85 Prozent der Fälle auf einer Liste mit 50 Vorschlägen vertreten sein. Dieser Zielwert wurde im Rahmen der Evaluation mit einem tatsächlichen Ergebnis von 86 Prozent der Fälle erreicht. Getestet wurden allerdings nur Listen mit 50 Vorschlägen – möglich sind aber Listen von zwei bis 50 Vorschlägen, mit einer Standardeinstellung von 20 potenziellen Übereinstimmungen. Für diese kleineren Listen liegt keine Evaluation vor.

Die Fehlidentifikationsrate wurde gar nicht getestet. Das FBI argumentierte hier, dass die Listen nur Vorschläge enthielten und somit keine „positives“ seien. Sowohl der Bericht des United States Government Accountability Office (2016) als auch Garvie, Bedoya und Frankle (2016) weisen allerdings darauf hin, dass allein das Verdachtsmoment eine Abkehr vom Unschuldsprinzip darstellt – Garvie Bedoya und Frankle bezeichnen den Vorgang als „perpetual line-up“.

Unabhängig von diesem konkreten Beispiel ist sich die Wissenschaft auch über die Effektivität algorithmischer Gesichtserkennung generell uneins (Revell 2016) – zu viele Faktoren bestimmen die tatsächliche Erfolgsrate. Als ein Beispiel seien die Lichtverhältnisse genannt: Im Rahmen eines Experiments in Mainz variierte die Trefferquote des zur Gesichtserkennung in Echtzeit in einer U-Bahn-Station verwendeten Algorithmus zwischen 60 Prozent am Tag und zehn bis 20 Prozent bei Nacht (Garvie, Bedoya und Frankle 2016). Weitere erschwerende Faktoren reichen vom Winkel, in dem die Kamera auf das Gesicht sieht, der Auflösung der Kamera selbst oder der Qualität des Vergleichsfotos bis hin zu plastischer Chirurgie, Make-up und Alterungsprozessen.

Zudem stellt sich die Frage nach der Sicherung eines solchen Systems gegen unzulässigen oder unautorisierten Zugriff. Hier reichen die Szenarien von Hackerangriffen bis hin zu autorisierten Nutzern, die jedoch unzulässige Suchen durchführen (bspw. nach Verwandten) (Garvie, Bedoya und Frankle 2016). Auch hier bemängeln die Evaluatoren die nachlässigen Strukturen, mit denen das System derzeit vor solchem Missbrauch geschützt werden: So regulieren beispielsweise nur fünf Bundesstaaten die polizeiliche Nutzung von Gesichtserkennungsalgorithmen überhaupt. Bezüglich der Erkennungsrate, ab der eine Verwendung von Systemen zulässig ist, gibt es in keinem Bundesstaat Vorgaben. Und auch zur Schwere der Straftat, ab der eine Verwendung des Systems zulässig ist, variieren die Vorschriften von Bundesstaat zu Bundesstaat.

Auch die Entwicklung des Algorithmus an den eigentlich vorgesehenen Kontrollpunkten wirft grundlegenden Fragen auf: Wie müsste ein Kontrollsystem aussehen, das mit dem Tempo eines sich ständig wandelnden Algorithmus mithalten und die technische und juristische Komplexität seiner Anwendung sowie die entsprechende gesellschaftliche Debatte nicht nur im Nachhinein abbilden, sondern auch präventiv steuern kann?

Diskussion: Umfassende Evaluation dauert an und analysiert mittelbare Folgen

Das Fallbeispiel zeigt: Die Skalierbarkeit maschineller Entscheidungen kann schnell zu Einsatzszenarien führen, deren gesellschaftliche Angemessenheit und Folgen nicht debattiert worden sind. ADM-Prozesse ermöglichen Abfragen in einer Breite und Häufigkeit, die mit analogen Mitteln nicht möglich war. Viele Polizeistellen können auf die FBI-Datenbank zugreifen. Die Datenbank verknüpft wiederum eine Vielzahl von Quellen. Diese Vernetzung und der geringe Aufwand algorithmischer Gesichtserkennung könnten dazu führen, dass

sie für Bagatelldelikte eingesetzt wird.
es wegen der steigenden Menge an Anfragen zu absolut mehr Fehlern kommt.
für einige Menschen das Risiko von Fehlidentifikationen steigt, weil ihre Porträts wegen systematischer
Verzerrungen in der Datenbasis enthalten sind. Zum Beispiel, weil in Vierteln mit hoher Armut die Wahrscheinlichkeit von Polizeikontrollen, Zufallsfunden und Polizeifotos in Folge höher ist.

Situation und Relevanz in Deutschland

Automatisierte Gesichtserkennung ist in Deutschland beispielsweise an sieben Flughäfen im Einsatz als Teil des automatisierten Grenzkontrollsystem EasyPASS (Bundespolizei 2015). Gemeinsam mit der Deutschen Bahn entwickelte das Bundesinnenministerium 2016 ein Konzept zur Überwachung von Bahnhöfen mittels Gesichtserkennung, das bereits in 20 Bahnhöfen pilotiert wurde (Plass-Fleßenkämper 2016). Innenminister Thomas de Maizière forderte 2016 die Einführung von Systemen zur Gesichtserkennung an allen deutschen Bahnhöfen und Flughäfen („Terrorbekämpfung“ 2016). Im Februar 2017 kündigte die Deutsche Bahn an, künftig am Berliner Südkreuz intelligente Videoüberwachung mit Gesichtserkennungsfunktion zu testen: „Diese Kamera ist ein kleines Wunderding: Sie soll durch eine Gesichtserkennung Menschen herausfiltern, die auf einer Liste von Verdächtigen gespeichert sind. Zudem soll sie abgestellte Gegenstände, etwa Koffer oder Pakete, die längere Zeit nicht bewegt wurden, registrieren. Und auch das typische Verhalten von Taschendieben soll sie erkennen“ (Kurpjuweit 2017).

„Dieses Arbeitspapier ist unter der Creative-Commons-Lizenz CC BY-SA 3.0 DE (Bertelsmann Stiftung – Weitergabe unter gleichen Bedingungen) lizenziert. Die gesamte Bertelsmann-Stiftung-Studie

Hier geht es zur Newsletter-Anmeldung!

Gesichts-Erkennung

Wenn Maschinen Menschen zu (er)kennen glauben

Umfassende Evaluation gewährleisten: Automatische Gesichtserkennung

Output: Bis zu 50 Vorschläge für die gesuchte Persona

Datenbasis und Entscheidungslogik: „criminal identities“ vs. „civil identities“

Konsequenzen: 64 Millionen Menschen in einer fortwährenden Gegenüberstellung

Evaluation: Technisch unzureichende Evaluierung, fehlender juristischer Rahmen

Diskussion: Umfassende Evaluation dauert an und analysiert mittelbare Folgen

Situation und Relevanz in Deutschland

2 Kommentare

Schreibe einen Kommentar Antworten abbrechen

Fünf Fragen an … Matthias Eberl

Wer kumuliert, manipuliert

Fünf Fragen an … Cem Karakaya

Wie mit Social Listening schwarze Listen erstellt werden

Wie die Polizei digital aufrüstet!

Von AGB-Längen, Menstruations-Apps & Linux-Projekten

Von sabbernden Männern & US-Datenschutzbemühungen

Von Experimenten in Schulen, Preisgeldern & Massenhacks

Kategorien

Über klartext

Dies & Das

Archiv

Newsletter-Anmeldung

Umfassende Evaluation gewährleisten: Automatische Gesichtserkennung

Output: Bis zu 50 Vorschläge für die gesuchte Persona

Datenbasis und Entscheidungslogik: „criminal identities“ vs. „civil identities“

Konsequenzen: 64 Millionen Menschen in einer fortwährenden Gegenüberstellung

Evaluation: Technisch unzureichende Evaluierung, fehlender juristischer Rahmen

Diskussion: Umfassende Evaluation dauert an und analysiert mittelbare Folgen

Situation und Relevanz in Deutschland

Ähnliche Artikel

2 Kommentare

Schreibe einen Kommentar Antworten abbrechen