Большие данные, или big data, называют новой нефтью.

Государство и частные компании активно копят, а потом и используют в разных целях множество самой разной информации о нас — простых гражданах. Мы поговорили с профессором Школы коммуникаций и куратором магистерской программы «Коммуникации, основанные на данных» Высшей школы экономики, основателем приобретенного Сбербанком стартапа Segmento Романом Нестером о том, зачем бизнесу наши персональные данные, чем опасны утечки таких баз и можно ли сегодня сохранить приватность в интернете.

Что вы узнаете

Кто собирает наши данные в интернете и зачем?

В 2010-х началась всеобщая персонализация и таргетирование рекламы. Сперва только в интернете, а затем к этому подключилось и смарт-ТВ, и наружные цифровые щиты. Стало понятно, что нужно где-то брать данные о пользователе, чтобы понимать: показывать ему рекламу или нет, сколько за него платить.

На рынке есть самые разные игроки. Наверное, номер один — это интернет-компании, которые живут в соответствии с так называемым ветхим заветом интернета. Его можно сформулировать так: мы даем вам бесплатный сервис, а вы не задаете вопросов, почему реклама настолько точно на вас таргетируется. Это не бизнес по сбору данных в чистом виде, а, скорее, по обмену контента на возможность собрать данные и затем использовать их для таргетинга.

При этом будет заблуждением считать, что «Вконтакте» или «Фейсбук» торгуют данными. Ни одна компания в интернете не торгует данными, потому что это убило бы ее собственный бизнес. Если ты отдаешь кому-то такой важный актив, то в чем ценность компании? Как правило, соцсети предоставляют данные в пользование, дают рекламодателям возможность показать пользователю объявление на короткое время.

Например, «Вконтакте» предоставляет данные для оценки кредитоспособности людей, но это делается в таком виде, что информация никуда из самой социальной сети не уходит. Грубо говоря, приходит банк и задает конкретный вопрос: «Есть ли у этого человека среди друзей те, кто не отдает кредиты?» Социальная сеть просто отвечает, да или нет. При этом сами данные никому не передает, а просто сообщает про наличие некоего признака у пользователя.

Позже на рынок пришли банки и телеком-операторы. Они думали, что повысят доходы, зная больше про своего клиента. Появилась идея объединить системы и продавать некие дополнительные услуги за пределами основных. Для этого требовалось лучше знать пользователя, уметь «очистить» его профиль от лишней информации и быстро использовать. И родилась мысль, что этот профиль можно не только использовать для того, чтобы продавать свои услуги, но и позволить сделать это партнерам — то есть выйти на рынок таргетированной рекламы.

Банки были первыми, потому что они знают многое о расходах человека и его социально-демографический портрет, так как имеют доступ к паспортным данным клиента. До недавнего времени в соцсетях ты не мог быть уверен, действительно ли, например, перед тобой мужчина или человек выдает себя за другого, а банки знают это точно. Поэтому банки пытались выйти на этот рынок, использовать свои данные для таргетинга рекламы.

В свою очередь, телеком-операторы имеют данные еще и о поведении человека в сети: какие сайты пользователь посещает и как часто. Но есть нюанс: соединение шифруется браузером, поэтому оператор не знает, что вы зашли на определенную страницу внутри личного кабинета вашего банка или что изучали конкретную дрель на определенном маркетплейсе. Хотя эти данные самые ценные.

Вопреки распространенным мифам, операторы практически не используют данные о местоположении и перемещении пользователей. Прежде всего — потому, что это нарушает закон о тайне связи, который позволяет такие данные использовать только для улучшения качества телеком-услуг. Ну и вообще, честно говоря, такие данные никому не нужны.

Зарабатывают на данных и так называемые вайфай-ловушки, особенно они дружат с наружной рекламой. Телефон «стучится» в обнаруженную вайфай-сеть, в этот момент ловушка получает айди телефона. Компания может узнать, что человек работает в определенном районе города, и соединить это с данными из соцсетей. В итоге получает его историю и профиль соцдема и показывает ему рекламу. Эти данные еще позволяют понять, сработала ли она. Компания показывает пользователю тысячу баннеров «Вкусно — и точка», а затем видит, если тот туда реально пришел. До этого можно было посчитать только клики по рекламным баннерам.

Кроме того, до недавних изменений в законодательстве банки не видели состава чека при покупке. До сих пор ни один банк, выпуская карты и обрабатывая транзакции, не видит, какие именно товары есть в чеке, только место, где сделана покупка. Но ФНС внедрила трекинг чеков, и на рынке появилась новая категория компаний — операторы фискальных данных ОФД. Это организации, которые помогают собрать с кассовых аппаратов информацию о составе чека и передать ее в налоговую. Это нужно для того, чтобы фискальные органы знали, какие категории товаров продавались, со всего ли уплачены налоги и так далее. ОФД получили карт-бланш на то, чтобы торговать данными из состава чеков.

Ну и последняя категория, о которой обязательно надо сказать, — это крупные ретейлеры, например X5 или «Магнит». Они крайне активно и агрессивно раздали свои карты лояльности, получили взамен профили покупателей, их телефоны и адреса электронной почты. Теперь они также агрегируют все данные о продажах у себя для того, чтобы продавать возможность показа целевой рекламы. Ретейлеры зарабатывают на продаже данных и для оптимизации собственной логистики, чтобы лучше прогнозировать товарные остатки, выкладку на полки.

Насколько велик сегодня рынок торговли данными?

Объем рынка данных, как правило, сильно переоценивают. Я проводил свою оценку, пытался посчитать всех, кто так или иначе собирает данные и дальше на них зарабатывает, продавая их для двух самых больших ниш: для скоринга, то есть оценки кредитоспособности заемщика, или для таргетинга. При этом не включал интернет-компании, для которых данные — это основная часть бизнеса, а учитывал, например, банки и сотовых операторов. Получилось, что этот рынок составляет где-то 2—2,5 млрд рублей в год. Это меньше 1% всего рекламного рынка в России, формировавшегося последние десять лет.

Компании разными путями старались монетизировать данные, причем не только через рекламу. Но реклама виделась всегда одним из самых основных заработков, потому что такой рынок — это просто уже готовый поток денег, составляющий полтриллиона рублей ежегодно. Если ты сможешь от него захватить 5—10% — построишь заметный бизнес.

Раньше все очень завидовали «Яндексу» и «Гуглу», которые стали такими огромными благодаря поисковым данным. Другие компании, которые хотели зарабатывать в этой нише, подумали, что и они смогут сделать нечто подобное. Но выяснилось, что только «Гугл» и «Яндекс» обладают доступом к данным о срочных намерениях. Иными словами, если вы знаете, что человек покупал шуруповерт, то это вовсе не определяет, что он купит его еще раз. Да, эти данные дополнили рынок, помогли создавать интересные продукты и крутую аналитику, сделали рекламу измеримой. Но по-прежнему королями остались создатели поисковиков, где человек явным образом говорит: «Я ищу шуруповерт».

Какие данные считаются самыми ценными?

Самое драгоценное — это данные больших маркетплейсов, которые видят интерес со стороны человека к товару, данные агрегаторов, систем сравнения. То есть всех мест, где пользователь как-либо проявляет свое намерение совершить покупку. Например, «Авито»: если человек начинает просматривать какие-то объявления, значит, ему этот товар в ближайшее время можно предложить — и он его купит.

Во всех остальных случаях данные приходится объединять в сложные системы для того, чтобы попытаться предсказать следующий шаг пользователя. А предсказание всегда проигрывает точному знанию.

Какую информацию обычно собирают о пользователях?

Есть декларативные данные, когда пользователь сам о себе что-то сказал: пол, возраст, место жительства и так далее. А есть поведенческие, они отличаются от декларативных тем, что меняются, и изменение поведения человека нужно фиксировать. Например, пользователь не читал ничего про туризм, а потом взял и резко подписался на пять тематических групп. Мы получаем сигнал о том, что он интересуется, куда поехать.

Это и информация об использовании приложений. Правда, тут все постепенно сходит на нет: Apple в iOS уже запрещает трекинг, и скоро Google в Android тоже это сделает. Вообще, приложения — это одна из самых ценных вещей, которую можно использовать для рекламы других приложений. Самые ценные данные из вашего смартфона — это то, какие приложения на нем установлены, ими обладают только операционные системы. Такого рода данные для рекламы предоставляют операционные системы от компаний вроде Huawei и Xiaomi. Apple и Google этим не занимаются.

Самое ценное — это когда мы собираем ваш профиль из разных типов данных: таким образом уже можно предсказывать, какую рекламу вам лучше показать.

Можно ли узнать, что кто-то собирает обо мне информацию и перепродает ее?

Европейские законы потребовали от больших компаний ввести возможность запретить трекинг. Когда вы видите огромный баннер от рекламной системы «Яндекса» или «Гугла», вы можете нажать на крестик на этом баннере и увидеть, что там есть опция «запретить трекинг».

Кроме того, можно ограничить трекинг и на мобильном устройстве, это тоже очень хорошо работает. Всем рекомендую зайти в свой профиль в «Телеграме», «Гугле», «Яндексе», в социальных сетях. Везде есть кнопка «выгрузить знания обо мне». Иными словами, можно увидеть, что хранится в вашем профиле — своеобразном портрете пользователя. Вас ждет много открытий. Например, я увидел, что «Гугл» из моей почты достает даты бронирования и названия отелей, имена гостей, и все это сохраняет. Можно себе представить, что если я решил не с женой, а с кем-то еще поехать в отель, то эти данные тоже таким образом туда попадут.

В общем, проверяйте, какую информацию такие системы про вас собрали. Еще три-четыре года назад узнать о своем профиле было бы невозможно, сейчас это есть у всех. Так, у «Гугла» сервис называется Google Takeout. В «Яндексе», если я правильно помню, можно тоже поковыряться внутри своего профиля.

Кроме того, можно использовать анонимные поисковики вроде DuckDuckGo, которые не запоминают поисковые запросы и никуда их не передают. Используя VPN, вы тоже серьезно ослепляете системы. Если вы из Вьетнама ходите по российским сайтам, то вы совершенно бесполезное существо для отечественного электронного рынка. На пользователя-иностранца никто не будет покупать рекламу, потому что человеку из Вьетнама на российском сайте ты ничего не продашь. В настройках рекламных систем всегда таких людей отключают, отрезают, никто не пытается предугадать: «А это аудитория из VPN? Наверное, ей надо что-то показать».

Я пользуюсь расширением для браузера — плагином Ghostery. Он показывает все трекеры, которые загружаются в момент визита на страницу. Их можно заблокировать, но мне гораздо интереснее смотреть, как целыми пачками все они грузятся на разных сайтах. Иногда это до пятидесяти таких трекеров. Для сравнения, в американском интернете вы обычно на сайте увидите до сорока разных трекеров, которые загрузятся к вам и потом между собой поменяются данными.

Если вы играете в онлайн-казино или занимаетесь ставками, то учтите, что вокруг сбора данных об игровых действиях человека развилась целая индустрия. Есть провайдеры данных, у которых другие казино покупают информацию о том, какие ставки делает игрок, насколько они большие, насколько он подвержен импульсивным ставкам. Это важные сигналы, и бизнес ими пытается пользоваться.

Государство тоже знает о нас очень много. Реально ли создать в России аналог китайского социального рейтинга?

99% людей заблуждаются, когда говорят, что они понимают, в чем сущность социального рейтинга в Китае. Кажется, что это некая система, где по рубильнику тебя везде выключают, и ты должен очень стараться, чтобы этого не произошло. В реальности то, что называется социальным рейтингом, в Китае радикально отличается от региона к региону. Где-то его практически нет, где-то он менее жесткий, единой системы на уровне страны не существует.

Есть некие системы, внедренные конкретными регионами, работающие по-разному. Чаще всего основная их цель — наказывать за конкретные нарушения. Нет цели просто все знать про людей, чтобы по щелчку выключать их активность. Это проамериканский нарратив, который очень легко всем зашел. Когда начинаешь погружаться в вопрос, выясняется, что реальность далека от этого представления.

Что касается России, то считается, что государство может много про нас знать. На самом деле все попытки построить какие-то системы, собирающие данные про человека, очень слабо реализовывались. Единственное, что вышло довольно неплохо и в чем Россия сегодня один из лидеров, — это внедрение систем видеослежения с распознаванием лица и с идентификацией человека. Москва в этом плане находится на уровне ведущих китайских городов. И сегодня такие системы используют в первую очередь для раскрытия преступлений.

Но это вовсе не про то, что где-то есть большая база, где на всякий случай про нас собирают всю информацию: где были, что делали. Такие системы пока государства не осилили. Лучший пример — это сбор биометрии. Когда-то нам сказали: «Друзья, давайте вы в госуслуги будете сдавать свою биометрию! И дальше легко сможете получать кредиты, логиниться в разных сервисах». Об отношении граждан к этой идее свидетельствует тот факт, что за год только 160 тысяч добровольно сдали биометрические данные для сервиса госуслуг. Можно сказать, что проект провалился полностью.

В результате государство сейчас идет путем, который я называю «национализация данных». Суть его не в том, чтобы сделать системы, собирающие информацию про граждан, а в том, чтобы пойти к тем, кто уже это сделал, и попросить их передать данные в пользу государства. Самый грандиозный закон в этом плане — о биометрии, который в СМИ подали как защиту от утечек персональных данных. Хотя на самом деле смысл его в том, что 70 миллионов записей частные компании просто принудительно передадут в единый реестр.

Другой закон, который приняли еще в конце 2021 года, вступил в силу 2022 году — о принудительном госсчетчике. Любой более-менее крупный ресурс обязан ставить себе счетчик посещаемости от государственной компании «Медиаскоп». Он позволяет собирать все ваше взаимодействие с контентом в интернете. Любой сайт будет фиксировать, что вы там делали, какое видео смотрели и так далее.

В общем, все данные, собранные бизнесом, теперь впитывает в себя государство. И дальше мы оказываемся как раз в зоне социального рейтинга, идем к тому, что власти будут знать все и про бизнес, и про граждан. Более того, когда ты собираешь такой объем данных, то можешь начинать делать прогнозы поведения конкретного человека. К сожалению, мы можем прийти к предиктивному управлению, в котором алгоритмы на основе этих реестров будут перемещать человека условно в зеленую или красную зону. Все это, кстати, происходит на фоне постепенного закрытия доступа граждан к данным государства.

Какие самые частые ошибки совершают люди в плане безопасности персональных данных?

Самая частая ошибка — это купиться на фишинг. Когда вы думаете, что перед вами сайт условного Сбербанка, а на сам деле — мошеннический. Тут нужно быть максимально внимательным, потому что есть огромное количество площадок, мимикрирующих под ресурсы, которым вы передаете свои данные.

Вторая проблема в том, что люди используют для своего удобства несложные пароли, не думая о последствиях. И, наконец, беда в том, что человек завязывает все сервисы на какой-то один адрес электронной почты или устройство. Получив один доступ, злоумышленник может контролировать все ключевые системы конкретного человека.

Решается это созданием двух почтовых ящиков. Первый — секретный, адрес которого вы никому не даете. На него зарегистрирован второй — публичный, то есть фактически первый ящик — это ключ ко второму. Именно публичный ящик вы указываете для регистраций в сервисах, на него получаете письма. Можно настроить пересылку почты на основной секретный ящик, но суть в том, чтобы не раскрывать адрес последнего нигде и никогда. Такую систему несложно реализовать, но многим людям лень.

Но в целом, когда пользователь взаимодействует с неким авторитетным сервисом, скажем, тем же банком, ответственность лежит все-таки не на человеке, а на компании. Важно об этом помнить. Поэтому думать все время, что данные, которые вы передаете, могут утечь — путь к паранойе. Пользователи доверяют крупным компаниям, потому что у тех больше ответственности перед законом, есть риски перед акционерами. В небольшой фирме же, например, владельцы могут поругаться, и ваши данные окажутся неизвестно где.

Можно ли сегодня остаться на сто процентов анонимным в интернете?

Я бы не говорил про «интернет»: есть просто жизнь, и она связана с устройствами, постоянно соединенными в сети. В этом смысле, когда мы говорим «анонимность в интернете», то имеем в виду «анонимность в жизни вообще». Я думаю, что с развитием государственных реестров такое поведение будет уделом радикальных гиков. Потому что из-за тяги к анонимности вы можете в любой момент лишиться не просто удобств, а базовых вещей, государственных услуг и тому подобного. Не думаю, что будет возможной ситуация, когда человек никому ничего не передает и при этом остается полноценным гражданином.

При этом, кстати, в мире активно развиваются технологии «прайваси», обеспечивающие приватность пользователей. Это системы, которые позволяют ограничивать слежку за вами. Парадоксально, но Apple и Google для нас делают в этом плане больше, чем кто-либо, потому что под давлением общества они вводят ограничения трекинга. В результате огромное количество бизнесов перестает собирать данные о пользователях.

Весь коммерческий интернет будет постепенно переходить на косвенные способы отслеживания. Здесь кроется огромная проблема для аналитиков, рушатся уже выстроенные инфраструктуры анализа данных, но все идет именно к этому. Однако государство получает новые полномочия и занимает место компаний, которые раньше за вами следили.

Если заглянуть на десятилетия вперед, что нас там ждет: полностью прозрачная жизнь?

Думаю, нас ждет борьба за права пользователя и за приватность. Вижу, какие законы принимаются, политики не могут игнорировать запросы общества. Коммерческая реклама станет зависеть от контекста. Системы будут в мгновенном режиме понимать, какой контент перед пользователем, и моментально встраивать рекламные блоки, предлагая что-то полезное. Кстати, не надо забывать, что трекинг интернет-рекламы — это все-таки про полезность. Если вам 55 лет, вы не увидите рекламу подгузников.

Мы придем к тому, что данные будут храниться не в компаниях, а в независимых блокчейн-реестрах. Это обезопасит от утечек, так как часто их причиной становятся не хакеры, а сотрудники компаний, собирающие информацию. А потом, думаю, мы придем к тому, что компании начнут делиться с пользователями полученной прибылью, анализируя данные исключительно с их разрешения. У каждого из нас будет выбор: нажать кнопочку «Мне нечего особо скрывать» и получить скидку или не передавать информацию о себе.

Кроме того, мне кажется, в интернете будущего данные станут активом пользователя. Иными словами, вы сможете выбирать сервисы и одной кнопкой переходить между платформами разных форматов. Представляете, получится уйти из «Ютуба» в «Телеграм», забрав за собой всех своих подписчиков. Сегодня это немыслимо! Креаторы будут диктовать свою волю платформам, а те, в свою очередь, станут конкурировать за таких пользователей. Это даст большой толчок экономике, в которой люди создают контент и на этом зарабатывают.


Вот что еще мы писали по этой теме

Сообщество