Деперсонализированные данные что это
Обезличивание данных: сохранение баланса между правами граждан и развитием инноваций
waider.list.ru / Depositphotos.com |
Повсеместное использование информационных технологий поднимает вопросы, возникающие в связи с обработкой персональных прав граждан. Особенно остро встает проблема защиты персональных данных при их обработке государством или частными компаниями, в том числе с помощью технологий искусственного интеллекта. Напомним, что персональные данные – это любая информация, относящаяся к прямо или косвенно определенному или определяемому физическому лицу (ч. 1 ст. 3 Федерального закона от 27 июля 2006 № 152-ФЗ «О персональных данных», далее – Закон № 152-ФЗ). Одним из методов решения проблемы защиты данных является процедура их обезличивания. В соответствии с законом обезличивание персональных данных представляют собой действия, в результате которых становится невозможным без использования дополнительной информации определить принадлежность персональных данных конкретному субъекту персональных данных (ч. 9 ст. 3 Закона № 152-ФЗ). Как на практике выполняется процедура обезличивания, действительно ли она может обеспечить защиту персональных данных и как соблюдается баланс между интересами граждан, государства и компаний – в нашем материале.
В ходе пленарного заседания, организованного в рамках Петербургского Международного Юридического Форума 9 3/4, информационным партнером которого является компания «Гарант», президент Ассоциации участников рынка больших данных Анна Серебряникова обратила внимание на то, что сейчас тема обезличивания данных в первую очередь должна рассматриваться как механизм защиты прав граждан, а уже после этого – как стимулирование развития бизнес-сектора. Важность темы понимается и на федеральном уровне – государство демонстрирует разнообразие обсуждаемых и принимаемых инициатив по вопросу оборота данных при использовании информационных технологий, например, для развития технологии искусственного интеллекта. В настоящее время процедура обезличивания данных активно применяется, при этом эксперт считает, что ее нужно отрегулировать таким образом, чтобы, с одной стороны, не остановить технический прогресс, с другой – защитить граждан от деобезличивания.
В ходе обсуждения Татьяна Матвеева, начальник управления президента РФ по применению информационных технологий и развития электронной демократии, отметила, что на сегодняшний день метода, который мог бы полностью обезличить данные с сохранением ценности таких данных, не существует. Связано это с тем, что текущий уровень развития информационных технологий при сборе нескольких наборов данных (в том числе, обезличенных) и при последующей математической обработке могут быть опять персонализированы. Таким образом, обезличивание персональных данных выступает методом снижения рисков нарушения прав граждан при обработке персональных данных, например, при их утечке. Но гарантии полной защиты прав граждан не происходит, подчеркивает эксперт.
Напомним, что в РФ процедура по обезличиванию персональных данных регламентирована Приказом Роскомнадзора от 5 сентября 2013 г. № 996 «Об утверждении требований и методов по обезличиванию персональных данных». Так, в соответствии с Приказом, к наиболее перспективным и удобным для практического применения относятся следующие методы обезличивания:
Также запущен Федеральный проект «Искусственный интеллект», разработанный Минэкономразвития России в целях реализации Национальной стратегии развития искусственного интеллекта на период до 2030 года (утв.Указом Президента Российской Федерации от 10 октября 2019 г. № 490), который уточняет условия использования данных в рамках экспериментальных правовых режимов (ЭПР), так называемых регуляторных песочниц. Подробнее об ЭПР читайте в нашем материале: «Проблемы защиты персональных данных в рамках экспериментальных правовых режимов». Заместитель руководителя Роскомнадзора Милош Вагнер отметил, что введение таких режимов является результатом ответа на запрос бизнеса о желании воспользоваться данными – такие режимы позволяют с учетом послаблений апробировать методики обезличивания.
Важно обратить внимание, что есть различие между обезличенными и анонимизированными данными. Как объясняет Анна Серебряникова, полностью анонимизированные данные представляют собой статистику, которая доступна в свободном доступе и относится к открытым данным. Аналогичной позиции придерживается Татьяна Матвеева, приводя в пример таких данных статистику Росстата и соцопросы – такие данные являются «загрубленными» с точки зрения социально-демографического портрета опрашиваемой аудитории. По мнению Анны Серебряниковой, такие данные не несут той же ценности, как обезличенные, на основании которых можно определить некоторые особенности разных видов социальных групп. Эксперт приводит в пример анализ поведенческих особенностей малых социальных групп, прогнозирование возрастных трендов, измерение настроения людей и определение их отношения к тем или иным явлениям – все эти функции на основании анонимизированных данных невозможны. Другими словами, полностью анонимизированные данные не представляют ценности для бизнеса, а для некоторых областей искусственного интеллекта даже обезличенные данные не представляют ценности – для его обучения требуется опыт, а если такой опыт с пробелами, его обучение будет соответственным, объяснила Анна Серебряникова.
Руслан Ибрагимов, вице-президент по взаимодействию с органами государственной власти и связям с общественностью ПАО «МТС» считает, что основная проблема, связанная с обезличиванием персональных данных, – расхождение в определении того, что представляют собой такие данные. Государственные органы не видят разницы между персональными и обезличенными данными, что создает ряд юридических проблем. На практике такой подход может ужесточать оборот обезличенных персональных данных. При подходе, согласно которому такие данные являются отдельной частью персональных данных, такие данные могут быть свободно пущены в оборот. Эксперт считает, что следует достичь консенсуса при решении вопроса о том, какой из этих подходов должен быть использован в отношении обезличивания персональных данных.
Анна Серебряникова считает, что для обучения искусственного интеллекта нужны более широкие дата-сеты, включающие такие данные, которые будут соблюдать баланс – с одной стороны, не нарушать права субъектов персональных данных, с другой – предоставлять для бизнеса максимально полные данные для развития технологий. Обработка персональных данных в любом случае сопряжена с потенциальными рисками для субъектов, при этом такие риски могут возникать не только рамках исполнения бизнес-задач, но и при других неправомерных действиях, резюмировала Татьяна Матвеева. В связи с этим решения по условиям обработки и обезличиванию данных следует принимать и оценивать через призму защиты прав граждан. Помимо нормативного государственного регулирования разработка отраслевых стандартов и кодексов по работе с обезличенными данными позволит повысить внутреннюю цифровую культуру компаний, работающих с данными, а также увеличить уровень доверия граждан, заключила эксперт. С коллегой согласился Милош Вагнер – регулирование должно осуществляться как со стороны надзорного органа (в соответствии со ст. 23 Закона № 152-ФЗ), так и со стороны операторов (в соответствии со ст. 18.1 Закона № 152-ФЗ), то есть должен присутствовать также внутренний контроль за соблюдением положений законодательства, считает эксперт.
1 С текстом законопроекта № 992331-7 О внесении изменений в Федеральный закон «О персональных данных» (в части уточнения порядка обработки персональных данных) и материалами к нему можно ознакомиться на официальном сайте Госдумы.
Что такое обезличивание персональных данных, для чего нужно, каковы правила работы с ними?
Обращение с персональными данными как физического, так и юридического лица в Российской Федерации регламентируется законодательством. Такая информация принадлежит владельцу и может обрабатываться только при наличии согласия.
Обезличивание позволяет компании снизить приоритетность информации, обезопасить хозяев за счет сокращения и изменениях ведомостей. В этом материале мы разберемся с тем, что собой представляет обезличивание данных, в каких случаях оно используется и с какой конечной целью.
Что это такое?
Обезличивание персональной информации является составляющей частью обработки материалов. В статье 7 Федерального закона РФ от 27 июля 2006 года «О персональных данных» сообщается, что под обезличиванием ведомостей понимается действие, которое делает невозможным определение принадлежности информации к конкретному лицу. При этом, речь идет только об идентификации физического или юридического лица на основе сообщений, которые подвергаются обезличиванию.
Статья 7 ФЗ №152 от 27 июля 2006 года «О персональных данных». Конфиденциальность персональных данных
Операторы и иные лица, получившие доступ к персональным данным, обязаны не раскрывать третьим лицам и не распространять персональные данные без согласия субъекта персональных данных, если иное не предусмотрено федеральным законом.
Эта же информация может помочь определить, к какому россиянину относятся ведомости, если будут использованы дополнительные источники. Обезличивание проводится как при помощи автоматизированных систем (компьютеров, программ), так и без использования таких средств.
Алгоритм доступен только операторам, имеющим в своем распоряжении информацию личного характера. После обезличивания материалов с оператора снимаются требования по обеспечению максимальной конфиденциальности.
Теперь вы в общих чертах знаете, что это такое – обезличенные данные о клиентах.
Для чего необходимо?
Роскомнадзор определяет обезличивание в качестве способа защиты информации от несанкционированного использования, однако сохранить возможность пользоваться ею дальше. В некоторых случаях операторам необходимо сохранить доступ к ведомостям на длительный срок. Если ликвидировать материалы невозможно, обезличивание станет достойной альтернативой.
Хранение персональных сообщений регулируется законом, требует выполнения мероприятий по обеспечению конфиденциальности. Например, в электронном виде сведения должны храниться в информационных системах, прошедших государственную экспертизу. Переведя данные в разряд обезличенных, оператор может сократить собственные расходы на хранение информации, ведь с этого момента они больше не позволяют определить их владельца.
Пример
Многие из жителей Российской Федерации пользуются интернет-магазинами для совершения быстрых и выгодных покупок. И каждый торговый портал является оператором ПД (персональных данных). Предположим, ресурс хранит сообщения о клиентах в электронном виде.
По каждому покупателю у оператора имеются следующие сведения: ФИО, город проживания, перечень заказанных товаров. Все эти материалы являются личными, дают возможность идентифицировать лицо с большой долей вероятности или способны, в случае неконтролируемого распространения, нанести гражданину – обладателю информации – вред.
Возьмем для примера метод декомпозиции. Он предусматривает разбивку массива информации (ФИО, город проживания и перечень товаров) на несколько частей, которые будут храниться отдельно друг от друга. Все три группы по отдельности не могут стать инструментом для идентификации человека.
Однако при любом способе деперсонализации данных интернет-магазин сохранит возможность оперировать необходимыми материалами, например, использовать информацию для собственных статистических исследований по популярности ресурса в отдельном населенном пункте или востребованности определенного товара.
Правила работы
Такие правила устанавливаются региональными муниципалитетами Российской Федерации на основе уже упомянутого Федерального закона «О персональных данных».
Теперь вы знаете, каковы правила работы с обезличенными данными о клиенте.
При помощи чего возможно?
Так как же обезличить ПД? Основные методы обезличивания информации утверждены в Приказе Роскомнадзора, органа осуществляющего надзор за реализацией государственной политики в сфере массовой коммуникации. В наши дни используются четыре основных метода обезличивания.
Пошаговая инструкция: как осуществить?
Основным нормативным документом при проведении обезличивания информации остается акт «О персональных данных» правительства Российской Федерации. Обезличивание считается вариантом обработки ПД, поэтому при проведении соответствующего действия необходимо выполнять основные требования, которые предъявляются к обработке:
Обработка данных включает в себя следующие составные мероприятия:
Обезличивание данных проводится исключительно для нужд самого оператора, поскольку в процессе этого мероприятия информация теряет важность. Хранить такие ведомости удобно для самого оператора, ведь обезличенные данные даже в случае несанкционированного распространения не смогут нанести вред субъектам. Тем не менее, они остаются персональной информацией, и доступ к ним должен быть ограничен по всем законам России.
ФРИИ предложил россиянам зарабатывать на продаже их персональных данных
В фонде считают, что любой человек сможет получать благодаря этому 15–60 тысяч ₽ в год.
Фонд развития интернет-инициатив (ФРИИ) предложил внести изменения в закон «Об информации», которые разрешат свободный оборот «деперсонализированных» данных пользователей на рынке. По оценке авторов проекта, россияне смогут продавать свои данные, зарабатывая до 60 тысяч ₽ в год.
Деперсонализированные данные
ФРИИ предлагает ввести термин «деперсонализированные данные» и обеспечить их свободное обращение на рынке. Россияне смогут предлагать бизнесу свои данные с определённой целью и сроками за вознаграждение в различных формах. Компании будут покупать данные, если пользователь даст согласие на их обработку, и отчислять в его пользу процент от сделки. При этом россияне могут не соглашаться на обработку данных, чтобы исключить их из оборота.
В фонде считают, что любой человек сможет зарабатывать 15–60 тысяч ₽ в год, что станет «мощной мотивацией» для регистрации в качестве самозанятых. Это «позволит принести в казну несколько миллиардов рублей» от физлиц и налоги юрлиц, участвующих в обороте данных. При этом бизнес получит инструмент легального обмена пользовательскими данными и дополнительный доход, что ускорит рост этого рынка и ликвидирует в нём теневую экономику, рассчитывают авторы инициативы.
Эксперты скептически относятся к законопроекту
«Концепция, что человек может полноценно распоряжаться своими данными, красива, но требует законопослушности всех участников интернета», — считает глава департамента по развитию фонда Сколково Сергей Израйлит. По его мнению, оценка доходов в 15–60 тысяч ₽ в год на человека завышена — можно говорить лишь о нескольких тысячах рублей в год, что «вряд ли заставит граждан регистрироваться в качестве самозанятых».
Суммы 15–60 тысяч ₽ «выглядят крайне сомнительными», согласен основатель и технический директор DeviceLock Ашот Оганесян: это значило бы, что на такие выплаты в масштабах страны ушли бы триллионы рублей, притом что весь рекламный рынок — потенциально основной потребитель таких данных — оценивается в 450 млрд ₽.
Кроме того, по мнению Оганесяна, законопроект легализует действия, которые сегодня незаконны, и составлен «к откровенной выгоде российских держателей больших данных» — банков, операторов связи и крупнейших интернет-сервисов.
«За счёт слова „деперсонализация“ он открывает практически безграничные возможности торговли клиентскими данными и снимает ответственность за их утечки. Просто из данных будут исключены фамилия, адрес и телефон, а добавлен, например, рекламный ID. При этом эксперименты показывают: достаточно совместить совсем небольшой объём деперсонализированных данных, чтобы с высокой точностью привязать их конкретному человеку», — предостерегает он. В ФРИИ возражают, что деперсонализированные данные в отличие от обезличенных полностью утрачивают связь с субъектом — его нельзя идентифицировать даже с помощью дополнительной информации.
С тем, что проект будет особенно интересен крупным розничным банкам и торговым сетям, согласен и директор по инновациям «SAS Россия и СНГ» Юлий Гольдберг. Он отмечает, что для них он откроет новые возможности в части продуктов, контактной политики и предупреждения мошенничества.
Описание законопроекта по созданию системы хранения, управления, использования и продажи данных
Вашему вниманию предлагается концепт закона для дискуссии и обсуждения в правительственных кругах.
Краткое описание законопроекта
Законопроект регулирует деятельность операторов цифровых данных, определяет правила транзакций данных, систему оплаты и регулирует рынок цифровых данных.
Создание легального и открытого рынка персональных и «деперсонализированных» данных в условиях цифровой экономики
1. Участившиеся случаи несанкционированного доступа к персональным данным пользователей в банковской сфере, в сфере услуг операторов связи, государственных учреждений, являются угрозой для цифровой экономики
2. Государство никак не регулирует использование так называемых «деперсонализированных» данных, которые на текущем уровне развития технологий уже не являются таковыми. Технологии позволяют с высокой точностью определить пользователя из объёма таких данных. Компании, продающие и использующие «деперсонализированные» данные никакой ответственности за свою деятельность перед пользователем не несут.
3. Рынок данных находится в основном в серой зоне, государство недополучает налоговые поступления от сделок на этом рынке.
4. Граждане никак не защищены от утечек своих данных, нет рычагов контроля, кому, когда, за сколько их данные (в том числе в «деперсонализированном» виде) были проданы.
5. Государство тратит деньги и ресурсы на борьбу с черным и серым рынками персональных данных.
6. Компании несут большие расходы на защиту данных и своей IT инфраструктуры.
7. Крупные компании, собирающие большое количество данных, получают конкурентные преимущества, близкие к монополиям на рынке, что снижает уровень конкуренции, а следовательно, замедляет развитие рынка.
8. Современные реалии требуют не только защиту данных, которые пользователь создаёт и передаёт, но и их безопасную передачу другим участникам рынка, при котором пользователь будет получать денежное вознаграждение за свои данные. Законодатели Европейского союза уже готовят такой законопроект (вступит в силу к 2022 году).
Разработка законодательной базы для развития в стране легального рынка персональных и «деперсонализированных» данных пользователей, формализирующая требования к цифровым системам по хранению, предоставлению доступа, и системы транзакций – обмена данными, с получением вознаграждения пользователем за доступ к ним, а также создание открытой биржевой площадки для торговли данными и готовой аналитикой.
Компании, занимающиеся хранением данных пользователей являются операторами данных. Операторы данных могут специализироваться на определённом типе данных пользователя.
В целях безопасности операторы данных могут хранить не более 3х типов данных пользователя в разных хранилищах данных.
Медицинские данные может хранить только оператор, специализирующийся на этом типе данных.
Данные привязываются к зашифрованному динамическому ID пользователя, причем для каждого типа данных применяется отдельный ID, а привязка ID к пользователю происходит только при генерации специального ключа самим пользователем. Таким образом, исключается продажа данных из различных систем с привязкой к пользователю.
Требования к шифрованию и защите данных определяется отдельным подзаконным актом.
Взаимодействие между сторонами
Пользователи получают право продавать свои данные на открытой биржевой площадке (предоставлять доступ заинтересованным участникам рынка, организациям, государственным структурам к определенному типу своих данных). Все настройки пользователь задает в своем личном кабинете.
Стоимость за единицу данных формируется на бирже.
Каждый доступ к данным записывается в виде трансакции (блокчейн технология).
При проведении трансакции, покупатель получает доступ к данным пользователя, при этом, данные продолжают храниться у оператора данных.
Пользователь сможет настраивать в личном кабинете, какие данные готов предоставлять к продаже, и соответственно от уровня персонализации и количества транзакций получать вознаграждение. Данный подход позволит решить целый комплекс проблем, связанных с безопасностью пользовательских данных, экономическими и социальными последствиями их утечки, позволит организовать легальный налогооблагаемый рынок данных.
Аналитику данных с привязкой к персональным данным могут проводить специализированные аналитические агентства, имеющие лицензию на данный вид деятельности.
Государственные органы приобретают данные пользователей на общих условиях.
Биржа данных будет оценивать стоимость данных в зависимости от спроса и предложения. Пользователь также будет иметь возможность самостоятельно устанавливать стоимость своих данных.
Биржа является налоговым агентом, и вычитает налог до начисления на счет пользователя.
В личном кабинете пользователь сможет отслеживать всех участников, получивших доступ к его данным и данные об оплате.
Типы данных, к которым могут получить доступ государственные структуры, юридические и физические лица, иностранные агенты определяет Министерство цифрового развития, связи и массовых коммуникаций Российской Федерации в перечне данных, который будет действовать как приложение к данному закону.
Сотрудники государственных органов, запрашивающие данные пользователей, должны иметь согласование руководителя на запрос данных, оплата за эти данные будет производиться из государственного бюджета РФ, обоснованность запросов может быть проверена надзорными органами и прокуратурой РФ.
Граждане, посчитавшие запрос своих персональных данных государственными органами необоснованным, могут обратиться в суд без оплаты госпошлины.
Продажа данных лиц до 18 лет коммерческим структурам запрещена.
2. Финансовое вознаграждение пользователя за созданные им, его гаджетами, умными устройствами данные, что очень важно в наступающее время роботизации.
3. Пользователь получит контроль над своими данными, возможность предоставлять их компаниям, и также отзывать свои данные при необходимости
4. Новые налоговые поступления в бюджет от легального рынка данных
5. Рынок персональных данных создаст новые высокотехнологичные рабочие места
Экономический эффект, влияющий на социальную среду:
1. Компании и бизнес получат легальный доступ к персональным и «деперсонализированным» данным пользователей – улучшится конкурентная среда на рынке (не только среди IT компаний), что очень важно для развития малого и среднего бизнеса, стартапов.
2. Качество данных и аналитика улучшится за счёт более точных данных, привязанных к конкретному пользователю, его гаджетам, девайсам, роботам, датчикам – всей линейки предметов интернета вещей.
3. Компании смогут меньше концентрироваться на безопасности, т.к. данные хранятся у операторов, и больше уделять внимания бизнесу и сервисам, снизятся издержки, улучшится экономическая и налоговая отдача.
4. Операторы данных и система биржевых торгов как технология обращения с пользовательскими данными могут быть экспортированы как сервис для оборота и хранения данных пользователей в другие страны мира
5. Технологии хранения данных пользователей станет площадкой для цифровизации производств, как основа для хранения данных оборудования, технологических, логистических цепочек. Продажа этих данных позволит улучшать эффективность смежных производств, поставщиков оборудования, оптимизировать логистические цепочки, увеличит качество производимой продукции.
6. Технология блокчейн, а также цифровая валюта, которая будет генерироваться платформой будут востребованы для покупки-продажи данных платформы, что в перспективе может создать достойную альтернативу фиатным платежным системам.
Деперсонализация базы MySQL. Интересная техника
В компании, где я работаю, мы используем деперсонализированную базу с Production-a. Ее суммарный объем на данный момент около 30 ГБ. Обфускация ruby скриптом занимала около 6 часов. Ускорение обработки можно добиться, если переписать это все в хранимую процедуру (stored procedure). Но у нас в проекте они запрещены… Увы и ах.
Тогда я задался вопросом: можно ли ускорить процесс по максимуму, деперсонализировать всю базу (или хотя бы полностью одну таблицу) используя только один оператор update? Проблема в том, что некоторые поля д.б. уникальными, а некоторые случайными значениями из списка.
Оказалось можно. Немного подумав, пришло решение с помощью пользовательских переменных, генератора псевдослучайных чисел и оператора case.
Ниже немного кода и пояснения:
Пусть есть таблица users с полями:
first_name
gender
last_name
address_1
address_2
home_phone
birthdate
ssn
password
После обфускации должно быть:
first_name одно из: женское — Patricia, Taylor, Susan, Lisa, Linda, Sandra, Carol, Debra, Teresa, Rebecca, Diana, Veronika, Helen, Alexandra, Svetlana, Elona, Marina, Mila, Olga, Vasilisa, Marta
мужское — David, John, Robert, Steven, William, Mark, Thomas, Michael, Richard, Kevin, Donald, Andrew, Ruslan, Eugene, Sergey, Alexandr, Yura, Ivan, Daniel
gender: без изменений
last_name: Johnson, Anderson, Reed, Erickson, Frank, Lucas, Jenkins, Watson, Morgan, Kim, Kovalinen, Konovalov, Tereshko, Urchik, Kuleshov, Kisliakov, Areshnik, Pekar, Matroskin, Gallagher
address_1: 123 Main Street
address_2: если в оригинале ничего нет, то после обфускации должен быть NULL, в противном случае адрес 123 Main Street
home_phone: если в оригинале ничего нет, то после обфускации должен быть NULL, в противном случае телефон 111-111-2222
birthdate: оставить год рождения тем же, а дату и месяц изменить
ssn: случайное уникальное для каждой строки значение из девяти символов, начинающееся с ’30’
password: NULL
Как видно из кода, выбрать случайное значение из списка можно с помощью ELT(FLOOR(1+RAND() * 21). ), где FLOOR(1+RAND() * 21) выбор случайного значение в диапазоне от 1 до 21. ELT — выбирает соответствующую стоку с указанным индексом.
CASE помогает выбирать отдельно женские и мужские имена в зависимости от пола. Таких функций управления ходом выполнения, которые можно использовать в отдельном операторе четыре CASE, IF, IFNULL(), NULLIF().
Из того, что стоит еще упомянуть — это генератор случайного уникального значения. В качестве начального значения генератора было выбрано простое число (276821) и записано в пользовательскую переменную rand. Следующее значение устанавливается непосредственно в операторе CASE: rand:=( rand + 609673*2) % 1048576. Выражение CONCAT(’30’,LPAD( rand, 7, ‘0’)) формирует окончательный вид значения rand.
Заключение:
Чего мы добились таким способом деперсонализируя базу?
1) Скорость выполнения сократилась с 6 часов до 4х минут.
2) Не используются хранимые процедуры.
3) Понятная (не сложная) логика работы и весь код собран в одном месте.