Das Predictive Privacy Projekt

Datenethik im Kontext von Big Data und KI

Was ist Prädiktive Privatheit?

Big Data und Künstliche Intelligenz stellen das klassische Verständnis von Privatheit vor eine neue Herausforderung. Diese Techniken können dazu verwendet werden, Vorhersagen zu treffen – zum Beispiel über menschliches Verhalten, den Verlauf einer Krankheit, Sicherheitsrisiken oder Kaufverhalten. Die Grundlage für solche Vorhersagen bildet ein Abgleich behavioreller Daten (z.B. Nutzungs-, Tracking- oder Aktivitätsdaten) des betroffenen Individuums mit den Daten vieler anderer Individuen.

Häufig sind hiermit nützliche Anwendungen verbunden, die zum Beispiel unsere Gesundheitsversorgung verbessern. Doch das Missbrauchspotenzial ist ebenso groß: Prädiktive Analytik, also der Einsatz von Machine Learning zu Vorhersagezwecken, ermöglicht es auch, sensible Attribute wie Geschlecht, sexuelle Orientierung, Krankheitsdispositionen, psychische Leiden oder politische Einstellungen von Internet-Nutzer’innen abzuschätzen, ohen dass die Betroffenen davon etwas erfahren. Solche Schätzungen werden zum Beispiel dafür verwendet, Versicherungsprämien, Kreditentscheidungen, Werbeanzeigen und Produktpreise für jede Nutzer’in individuell festzulegen.

Das Konzept

Unter dem Begriff „prädiktive Privatheit“ forsche ich zur Ethik der informationellen Privatheit im Kontext prädiktiver Analytik. Dabei handelt es sich um einen Ansatz, der speziell auf die Gefahr des Missbrauchs abgeschätzter Informationen eingeht. Die prädiktive Privatsphäre eines Menschen umfasst auch jene Informationen, die anhand des Abgleichs mit vielen anderen Menschen über ihn vorhergesagt werden können. Prädiktive Privatheit wird somit verletzt, wenn ohne Wissen und gegen den Willen einer Person sensible Informationen über sie abgeleitet und zum Beispiel für automatisierte Entscheidungen verwendet werden, etwa bei der Bestimmung von Versicherungsprämien oder der Auswahl von Job-Bewerbungen.

Datenschutz ist keine private Entscheidung

Prädiktive Privatheit erweitert nicht nur den klassischen, intuitiv bekannten Begriff der (informationellen) Privatsphäre, der so etwas wie eine persönliche Schutz- und Intimitätszone benennt. Zugleich impliziert prädiktive Privatheit eine kollektivistische ethische Betrachtungsweise in Datenschutz und Datenethik. Konkret bedeutet das, den Schutz von Privatsphäre nicht als individuelles Anliegen jedes einzelnen aufzufassen. Denn prädiktive Analytik erlaubt die Abschätzung sensibler Informationen über ein Datensubjekt anhand der Informationen, die viele andere Individuen über sich preisgegeben haben.

Beispiel Facebook

Für ein Datenunternehmen wie Facebook ist es zum Beispiel möglich, prädiktive Modelle zu bauen, die zum Beispiel die sexuelle Orientierung oder den Beziehungsstatus von Facebook-Usern anhand ihrer “Likes” abschätzen. Wissenschaftler’innen haben gezeigt, dass man dafür nur wenigen Likes eienr Nutzer’in benötigt (Kosinski et al. 2013). Um ein solches Modell zu trainieren, kann Facebook folgendermaßen vorgehen: Einige Nutzer’innen – und sei es auch nur ein kleiner Prozentsatz, sagen wir 5% – machen über ihre sexuelle Identität oder ihren Beziehungsstatus explizite Angaben in ihrem Facebook-Profil. Bei insgesamt 2,8 Milliarden Nutzer’innen weltweit machen auch diese 5% eine sehr große Kohorte aus, bei der Facebook dann sowohl über die Facebook-Likes (proxy-Variable), als auch über Informationen zur sexuellen Identität bzw. zum Beziehungsstatus (Zielvariable) verfügt.

Somit lässt sich mittels „überwachtem Lernen“ aus den Daten dieser User ein prädiktives Modell trainieren, welches lernt, anhand der proxy-Variable die Zielvariable abzuschätzen. Ist so ein Modell einmal trainiert, kann es dazu verwendet werden, für alle anderen Facebook-User, die keine expliziten Angaben über ihre sexuelle Identität oder ihren Beziehungsstatus gemacht haben, diese Information mit hoher Genauigkeit anhand ihrer Facebook-Likes abzuschätzen. Facebook kann also fast alle Nutzer’innen nach diesen sensiblen Parametern klassifizieren – auch solche User, die gar nicht wissen, dass sie nach diesen Attributen klassifiziert werden, weil sie diese Informationen in ihren Profilen bewusst nicht angegeben haben.

Andere sensible Informationen über Datensubjekte, die sich aus Facebook-Likes ermitteln lassen, umfassen den ethnischen Hintergrund, religiöse und politische Ansichten, psychologische Persönlichkeitsmerkmale, Intelligenz, „happiness“, Suchtverhalten, Kindheit mit geschiedenen Eltern, Alter und Geschlecht (Kosinski et al. 2013). Andere Studien zeigen, dass sich zahlreiche Krankheitsdispositionen aus Facebook-Daten ableiten lassen, darunter Suizidalität, Depression, Angststörungen, Psychosen, Diabetes und Bluthochdruck (Mechant et al. 2019).

Wissenschaftliche Artikel zum Thema

  1. Mühlhoff, Rainer. 2020. „Prädiktive Privatheit: Warum wir alle »etwas zu verbergen haben«“. In #VerantwortungKI – Künstliche Intelligenz und gesellschaftliche Folgen, herausgegeben von Christoph Markschies und Isabella Hermann. Bd. 3/2020. Berlin-Brandenburgische Akademie der Wissenschaften.
  1. Mühlhoff, Rainer. 2021. „Predictive Privacy: Towards an Applied Ethics of Data Analytics“. SSRN Electronic Journal Pre-Print. doi:10.2139/ssrn.3724185.

Essays zum Thema

  1. Mühlhoff, Rainer. 2020. „We Need to Think Data Protection Beyond Privacy: Turbo-Digitalization after COVID-19 and the Biopolitical Shift of Digital Capitalism“. Medium, März. doi:10.2139/ssrn.3596506.
  1. Mühlhoff, Rainer. 2020. „Digitale Grundrechte nach Corona: Warum wir gerade jetzt eine Debatte über Datenschutz brauchen“. Netzpolitik.org 31.03.2020.
  1. Mühlhoff, Rainer. 2020. „Die Illusion der Anonymität: Big Data im Gesundheitssystem“. Blätter für Deutsche und Internationale Politik 8: 13–16.