Анти-обезличивание ПДн.

Сегодня я решил начать писать пост про и способ обхода. Делаю я это в процессе чтения очень интересной работы Латаньи Суинни, датируещейся 2002 годом. k-anonymity она называется. рекомендую :).  Сразу скажу, что материал буржуйский, и пример соответственно в ней буржуйский, но переделывать его под наши реалии мне лень. Поэтому сделаем скидку на то что есть.

Допустим, есть крупный оператор ПД, типа правительственной больницы. Класс ПД, сами понимаете, первый. Так вот нужно им отдать базу данных для каки-либо целей сторонней организации. Допустим в ФОМС. Они весело обезличивают БД и отдают.

Каким либо образом происходит утечка этих данных (папку выкидывают на помойку). Как нам персонализировать эти данные вспять?

Для этого нам нужен еще один массив данных, с пересекающимися полями. Например, пол, дата рождения, etc… Возьмем к примеру БД прописки.

Теперь смотрим на картинку:

Схема Данные в левом шарике — обезличенные, выброшенные на помойку. Данные в правом шарике — вообще то очень даже персональные, но, предположим, достать их проще, чем медицинскую карточку.

Выполнив нехитрое сопоставление данных из первого и второго шарика по общим полям (Дата рождения, пол, район — в нашем случае), мы на выходе получаем де-обезличенные ПДн.

Естественно, чем больше совпадающих полей — тем выше процент раскрываемости. Чем больше субъектов в БД — тем он ниже, так как возрастает процент возможных совпадений.

На попытку критики отвечу — модель весьма и весьма условна, но в тоже время, на мой взгляд, достаточно функциональна. Не все так просто в обезличивании.

Связанные записи

Метки: , ,