Interview: Auf welche Weise hilft das Pseudonymisieren und Depseudonymisieren personenbezogener Daten der Stadt Zaanstad bei der Datenanalyse?

Der Stadt Zaanstad

Immer mehr Unternehmen, Behörden und andere Organisationen stehen vor der Herausforderung, Datenanalysen mit personenbezogenen Daten gemäß der Datenschutzgrundverordnung (DSGVO) durchzuführen. Zunehmend häufiger entscheidet man sich für das Pseudonymisieren personenbezogener Daten. Wir erkundigten uns bei Tom Pots, Programmmanager Datengesteuertes Arbeiten bei der Stadt Zaanstad, nach den Herausforderungen in diesem Bereich. Welche Erfahrungen hat er mittlerweile mit dem Pseudonymisieren der Daten gesammelt und was hat das konkret gebracht?

Mit welcher Herausforderung (Business Issue) wurde Zaanstad konfrontiert?

„Die Stadtverwaltung von Zaanstad möchte datengesteuert arbeiten und zwar aufgrund der Überzeugung, dass gesellschaftliche Handlungsaufträge auf Grundlage von Daten besser bewältigt werden können. Es gelang uns bereits in einem frühen Stadium auf unterschiedliche Weise, unsere wichtigsten Daten auszuwerten. Die große Herausforderung bestand darin, den Datenschutz zu gewährleisten. Wie wird man sowohl der gesetzlichen Datenschutzpflicht und auch unserem gesetzlichen Auftrag zur Bekämpfung von Kriminalität oder zur integralen Arbeit innerhalb des sozialen Sektors gerecht? Mit dieser komplexen Frage ringen zahlreiche Behörden. Deshalb entschieden wir uns dafür, ein „Datenlagerhaus“ zu bauen. Wir gewannen Daten aus verschiedenen Quellen, wie sie u.a. im Rahmen des Melderegisters, der Immobilienbewertung etc. erhoben werden. Wir pseudonymisierten diese Datenbasen und speicherten sie anschließend auf möglichst sichere Weise. Das schwächste Glied in diesem Prozess waren wir selbst, da wir alles selbst machten. Dadurch arbeitete eine kleine Gruppe an Datentechnikern immer noch mit vielen personenbezogenen Daten.”

Wie haben Sie das gelöst?

„Wir haben mit der Pseudonymisier-Software von Viacryp eine Umgebung ohne Schwachstellen geschaffen. Im neuen Datenlagerhaus werden Daten an der Quelle pseudonymisiert, wodurch beim Prozess der Datenauswertung keine personenbezogenen Daten mehr verwendet werden, natürlich bis auf das Pseudonym.

In der neuen Architektur unterscheiden wir eine Analyse-Datenstraße (ADS) und eine Operative Datenstraße (ODS). In der ADS werden die zuordenbaren Merkmale aggregiert, minimiert bzw. pseudonymisiert. Die Daten in der ADS eignen sich zu Analysezwecken. Die ODS umfasst dagegen nahezu alle Merkmale. Weitaus die meisten Fragen können mithilfe der ADS beantwortet werden. Zu Analysezwecken sind selten personenbezogene Daten erforderlich. Das Auswerten der ADS ist ein automatisierter Prozess der Datenauswertung, Pseudonymisierung und letztendlich der Speicherung in einem Silo des Datenlagerhauses. Ein Abteilungsmanager ist für seinen Prozess, die Daten und die Anwendung verantwortlich. Er ist als Quelleigentümer der Daten für die ADS und die ODS innerhalb seines Silos verantwortlich.

Wir haben auch umgehend mit der Erstellung eines Datenkatalogs mit allen Definitionen angefangen, wodurch wir sehen können, was wir haben, was angefordert wird und was geliefert wird. Alles wird protokolliert. Damit sind wir in der Lage, sehr transparent zu sein.”

Weshalb haben Sie Viacryp als Partner für dieses Verbesserungsverfahren gewählt?

„Im Vorfeld dieses Verfahrens haben wir eine einmalige thematische Analyse in unserem Datenlabor mit Viacryp und einer anderen Partei durchgeführt. Wichtige Kriterien für uns waren: Mitdenken, Reaktionsgeschwindigkeit, Partnerschaft, inhaltsbezogen kritisch und Expertise. Die Zusammenarbeit mit Viacryp stellte sich mit Abstand als die bessere heraus und deshalb haben wir Viacryp gebeten, auch beim strukturellen Prozess der Datenauswertung unser Partner zu werden. In dessen Verlauf stellte sich schon schnell heraus, dass die auf Papier vereinbarten Versprechen in der Praxis eingelöst wurden. Außerdem war es gut zu sehen, dass unsere Datenarchitekten in den technischen Leuten von Viacryp sehr gute Sparringspartner gefunden haben. Sie beherrschten dieselbe Sprache und so entstand wirklich ein Flow.”

Für welches Vorgehen haben Sie sich entschieden, um zur gewünschten Lösung zu gelangen?

Die automatische Einrichtung der Pseudonymisierungsstraße für das Datenlagerhaus war ein technisches Glanzstück. Wir arbeiteten dabei gut zusammen. Es wurde ein so genanntes Client-Tool installiert, das zum ersten Pseudonymisierungsschritt führt. Viacryp hat auch dafür gesorgt, dass die Pseudonymisierungsstraße konfiguriert wurde. Ein wichtiger Aspekt ist, dass die Pseudonymisierungsleistung von Viacryp zu einem Teil unseres Prozesses der Datenauswertung geworden ist. Die Dienstleistung entspricht unserer Arbeitsweise zur Gewährleistung des Datenschutzes und dem Vorgehen, keine personenbezogenen Daten in Datenanalysen einzubeziehen. Wichtige Voraussetzungen bilden eine Datenschutz-Folgenabschätzung (Data Protection Impact Assessment, (DPIA)) und eine Datenschutzerklärung samt entsprechender Grundlagen und Zweckbindung. Damit kann man bei Bedarf jederzeit erklären, warum man welche Daten genutzt hat. Anschließend erfolgt das Pseudonymisieren, Aggregieren und Minimieren der Daten, damit außer dem Pseudonym keine personenbezogenen Daten verwendet werden. Viacryp hat als Ausgangspunkt: keine lesbaren personenbezogenen Daten innerhalb des Viacryp-Bereichs und natürlich eine robuste Gesamtlösung. Der Pseudonymisierungsprozess ist auch von außen sehr gut nachvollziehbar.“

Welche Ergebnisse wurden erzielt?

„Datenschutz braucht kein einschränkender Faktor zu sein. Derjenige, der um Daten bittet, sollte jedoch sehr fundiert erklären können, welche Daten wirklich erforderlich sind und weshalb. Quelleigentümer behalten die Angelegenheiten mit Argusaugen im Blick. Wenn man Daten nutzen will, muss man nachweisen können, dass der Datenschutz sorgfältig gewahrt wird. Wir haben – mithilfe der Dienstleistung von Viacryp – eine Standardarbeitsweise für den Umgang mit Daten entwickelt. Die Einrichtung der ADS spielt dabei eine wichtige Rolle. Wir haben jede Datenbasis Merkmal für Merkmal betrachtet und auch dahingehend bewusste Entscheidungen getroffen, auf welcher Ebene die Daten jeweils zu speichern sind. Dabei haben wir je Merkmal die Zuordenbarkeit analysiert. Als Beispiel sei genannt: alle Häuser über einem bestimmten Verkehrswert in einem bestimmten Viertel. Da man das gemeinsam mit dem Quelleigentümer unternimmt, ist er schneller bereit, die Datenbasis für Datenanalysen zur Verfügung zu stellen. Man wusste, dass bereits gründlich über die Datenbasis in der ADS nachgedacht worden ist. Sie wurde pseudonymisiert, aggregiert und minimiert, wodurch die Daten keine Zuordnung bzw. in kaum erheblichem Maße erlauben.

Durch die gemeinschaftliche Vereinbarung einer Arbeitsweise wird die Nutzung der Daten auf eine verantwortungsvolle und nachvollziehbare Weise ermöglicht. In 99 % der Fälle sind für die Datenanalyse keine personenbezogenen Daten erforderlich. Man braucht das „WER“ in der Regel nicht zu wissen, sondern nur das „WAS“. Weshalb nach allem fragen, wenn man es nicht braucht? Unsere Arbeitsweise zur Gewährleistung des Datenschutzes führt dazu, dass der Quelleigentümer weiß, wie die ADS aufgebaut ist und wie der Quelleigentümer sie zur Verfügung stellen kann.”

Sie nutzen auch die Möglichkeit zur Depseudonymisierung. Würden Sie das bitte erläutern?

„In 1 % der Fälle entsteht der Bedarf, pseudonymisierte Daten doch wieder zu depseudonymisieren, um einen Einblick in die ursprünglichen personenbezogenen Daten zu erhalten. Zum Beispiel: In einem Vierteil in Zaanstad gingen zahlreiche Meldungen im Hinblick auf schlechte gesellschaftliche Lebensumstände, Unsicherheit und subversive Aktivitäten ein. In dieser Situation haben wir den gesetzlichen Auftrag, solchen Entwicklungen Einhalt zu gebieten. Um neben den Signalen aus dem Viertel die Problematik im Untersuchungsgebiet besser zu erfassen, wurde dazu ergänzend entschieden, eine Datenanalyse durchzuführen. Es wird immer mit der Datenschutzerklärung angefangen, damit im Vorfeld bestimmt werden kann, ob die Datenanalysen durchgeführt werden dürfen. Auf Grundlage der pseudonymisierten Daten wurden drei Indikatoren in Betracht gezogen:

  1. Mehr als 4 Umzugsbewegungen pro Jahr
  2. Menschen wohnen auf weniger als 10 m2
  3. Mehr als 4 Erwachsene in einem Haus

Auf Grundlage dieser Indikatoren gingen 80 Gebäude im Untersuchungsgebiet aus der Analyse hervor. Man weiß dann nicht, um welche Gebäude es sich handelt, denn jedes Gebäude ist ein Pseudonym. Zu einem solchen Zeitpunkt findet eine Zusammenkunft des Beratungsausschusses statt. Er besteht aus einem Juristen, einem Datenschutzreferenten, einem Sprecher, dem Quelleigentümer und dem Programmmanager. Sie wägen die zwei gesetzlichen Aufgaben ab: die Bekämpfung von Verstößen gegen das Wohnungsbindungsgesetz und die Gewährleistung des Datenschutzes. Das ist Compliance in der Realität. Sie begründen die Notwendigkeit und Interessenabwägung und geben gemeinschaftlich eine dahingehende Empfehlung ab, ob zu depseudonymisieren ist oder nicht. Wichtige Kriterien sind: Zweckmäßigkeit, Rechtmäßigkeit und (Verwaltungs-)Risiken. Der Beschluss wird mit der Datenschutzerklärung ergänzt und dem Ressortleiter (in diesem Fall dem Bürgermeister) vorgelegt. Wenn kritische Medienvertreter anklopfen, können wir immer erklären, weshalb wir was getan haben. Das Depseudonymisieren von Daten ist ein amtlicher Beschluss, der politisch tragfähig sein muss.

Der Prozess ist transparent, nachvollziehbar und wird genau erfasst. Damit verfügt man über eine klare Begründung, wenn im Nachhinein Fragen gestellt werden, wie zum Beispiel: Wie haben Sie eine Datenanalyse zur Erfüllung Ihrer gesetzlichen Aufgabe zur Bekämpfung von Verstößen gegen das Wohnungsbindungsgesetz eingesetzt? Ein wichtiger Ausgangspunkt beim Einsatz von Datenanalysen besteht darin, dass das menschliche Handeln immer im Mittelpunkt steht. Ein verdächtiges Profil macht noch keinen Kriminellen und ein verdächtiges Objekt bedeutet nicht, dass auch tatsächlich kriminelle Aktivitäten stattfinden. Datenanalysen haben dabei lediglich eine Meldungs- und Empfehlungsfunktion. Nach der Analyse folgt immer eine menschliche Hand (wie eine vertiefende Untersuchung), bevor ein Beschluss gefasst wird. Im konkreten Beispiel wurden von den 80 Gebäuden, nach einer vertiefenden Untersuchung durch das Team, 20 Gebäude ausgewählt. Die Daten bezüglich der übrigen Gebäude wurden umgehend gelöscht. 20 Gebäude haben wir als Stadtbehörde einer Besichtigung unterzogen und bei 19 Gebäuden lagen Zuwiderhandlungen gegen das Wohnungsbindungsgesetz vor.”

Was hat die Dienstleistung von Viacryp ermöglicht, was sonst nicht möglich gewesen wäre?

„Vor zwanzig Jahren waren Daten noch nicht so wichtig wie jetzt. Außerdem nahm auch der Datenschutz noch keinen so hohen Stellenwert ein. Mit der zunehmenden Bedeutung der Daten ist der Datenschutz zurecht zu einem schwerwiegenden Faktor geworden. Es gibt noch immer viele Möglichkeiten, wenn man das „WER“ aus den Daten entfernt. Außerdem braucht man die personenbezogenen Daten in 99 % der Fälle gar nicht und kann man die Datenanalysen mit pseudonymisierten Daten durchführen, also ohne den Einsatz zuordenbarer personenbezogener Daten. Diese Analysen sind beim Einsatz zuordenbarer personenbezogener Daten nicht erlaubt. Die Pseudonymisierungsleistung von Viacryp ist damit die maßgebliche Lösung, mit der sowohl die Möglichkeiten der Datenanalyse genutzt wie auch personenbezogene Daten geschützt werden können.