В открытый доступ попал исходный код «Яндекса»: что известно об утечке и последствиях
Неделю назад в открытом доступе появилась часть исходных кодов сервисов «Яндекса».
В опубликованных папках нет персональных данных пользователей, но содержится множество фрагментов кода таких проектов компании, как «Такси», «Еда», «Почта» и «Алиса». В «Яндексе» говорят, что файлы неактуальны: содержимое соответствует устаревшей версии репозитория.
Рассказываем, что известно об утечке и внутреннем расследовании «Яндекса» по ее итогам.
Что случилось
Об утечке стало известно 25 января 2023 года. Пользователи форума Hacker News сообщили о публикации папок с исходным кодом «Яндекса». Все файлы в архивах не новые: каждый из них датирован 24 февраля 2022 года.
Набор включает несколько архивов, по названиям которых можно идентифицировать соответствующие сервисы компании: например, market, taxi, portal, alice, delivery, disk, drive, yandex360. Общее число архивов — 83, их объем в сжатом виде — более 44 Гб.
Например, в репозитории голосового помощника «Алиса» содержится множество скриптов для ее обучения, фрагментов обучающих данных, выборки реальных — но анонимных — запросов пользователей.
После утечки в «Яндексе» пояснили, что взлома не было. Служба безопасности компании обнаружила в открытом доступе фрагменты кода из внутреннего репозитория. В компании отметили, что их содержимое отличается от текущей версии репозитория.
«Репозитории нужны для работы с кодом и не предназначены для хранения персональных данных пользователей», — заявили в «Яндексе». В компании подчеркнули, что утечка не несет никакой угрозы для клиентов.
Как именно произошла утечка, неизвестно. Но источники vc.ru, Forbes и РБК, близкие к «Яндексу», сообщили, что к публикации данных причастен один из сотрудников компании.
Что можно получить из утечки
Персональные данные пользователей не пострадали. Разработчик Арсений Шестаков изучил файлы и объяснил, что в архивах — только содержимое репозиториев git. Там есть исходный код для части сервисов, документация, указывающая на реальные URL-адреса интрасети, и несколько ключей API, которые использовались для тестового развертывания.
Шестаков отметил, что в документах — за редким исключением — нет готовых двоичных файлов для большей части программ и почти нет предварительно обученных моделей ML.
Бывший топ-менеджер «Яндекса» Григорий Бакунов отметил, что слив подходит только для изучения кода: «Запустить из него свой Яндекс не выйдет». По его словам, что-то собрать из этого исходного кода невозможно: не хватит внутренней инфраструктуры компании и натренированных весов. Модель, которая получится, не обучена, а датасета для обучения нет.
Заместитель руководителя Центра противодействия киберугрозам Innostage CyberART Максим Акимов пояснил CNews, что, учитывая принятую agile-модель разработки программного обеспечения, часть кодов может быть актуальна. Насколько эта часть большая, сказать трудно.
Что говорят в «Яндексе» после расследования утечки
«Яндекс» раскрыл первые результаты расследования вечером 30 января 2023 года. Компания подтвердила, что опубликованные фрагменты взяты из ее внутреннего репозитория, но содержимое архива соответствует его устаревшей версии. В «Яндексе» отметили, что представленный исходный код отличается от актуальной версии, используемой сервисами сейчас.
В компании сообщили, что архивы не несут какой-либо угрозы для безопасности пользователей или работоспособности сервисов. При этом во время масштабного аудита «Яндекс» выявил несколько случаев «серьезного нарушения собственных политик, среди которых — «Принципы „Яндекса“» и «Правила корпоративной этики».
Примеры нарушений, на которые указала компания:
- В коде содержались контактные данные некоторых партнеров, например телефоны и номера прав водителей.
- Стали известны случаи, когда логику работы сервисов корректировали не алгоритмами, а «костылями» — временным решениями, реализованными неоптимально и «впопыхах».
- В «Яндекс-лавке» существовала возможность ручной настройки рекомендаций товаров без пометки о рекламе.
- Приоритетная поддержка для отдельных групп пользователей в «Яндекс-такси» и «Яндекс-еде».
- Части кода содержали слова, которые не влияли на работу сервисов, но были оскорбительны для людей разных рас и национальностей.
В «Яндексе» отметили, что фрагменты кода содержат тестовые алгоритмы, которые использовались внутри компании для проверки сервисов. Например, для улучшения качества работы «Алисы» в бета-версии для сотрудников применялась настройка, включавшая микрофон устройства в случайные моменты без упоминания имени ассистента.
Большинство проблем появилось из-за попыток вручную внести в сервис улучшение или устранить ошибку, отметили в компании. В будущем «Яндекс» сохранит политику нулевой терпимости к багам, позволяющей быстро внедрять изменения, но пересмотрит способы ее реализации.
В компании принесли извинения всем пользователям и партнерам, а также заявили, что сейчас им «очень стыдно».
Какие еще были крупные утечки в «Яндексе»
В марте 2022 года «Яндекс-еда» сообщила об утечке номеров телефонов клиентов и информации о заказах. Это произошло по вине одного из сотрудников. Тогда в компании заявили, что ужесточили защиту информации о заказах: она стала сопоставима с хранением данных о платежах, логинах и паролях. Число сотрудников, имеющих доступ к таким данным, сократили в три раза.
Через несколько недель в интернете опубликовали карту с данными клиентов «Яндекс-еды». Тогда сайт заблокировал Роскомнадзор, а компания добавила в сервис функцию удаления данных о заказах.
Мы постим кружочки, красивые карточки и новости о технологиях и поп-культуре в нашем телеграм-канале. Подписывайтесь, там классно: @t_technocult.