В открытый доступ попал исходный код «Яндекса»: что известно об утечке и последствиях

27
В открытый доступ попал исходный код «Яндекса»: что известно об утечке и последствиях
Аватар автора

Саша Кириллова

следит за новостями

Страница автора

Неделю назад в открытом доступе появилась часть исходных кодов сервисов «Яндекса».

В опубликованных папках нет персональных данных пользователей, но содержится множество фрагментов кода таких проектов компании, как «Такси», «Еда», «Почта» и «Алиса». В «Яндексе» говорят, что файлы неактуальны: содержимое соответствует устаревшей версии репозитория.

Рассказываем, что известно об утечке и внутреннем расследовании «Яндекса» по ее итогам.

Что случилось

Об утечке стало известно 25 января 2023 года. Пользователи форума Hacker News сообщили о публикации папок с исходным кодом «Яндекса». Все файлы в архивах не новые: каждый из них датирован 24 февраля 2022 года.

Набор включает несколько архивов, по названиям которых можно идентифицировать соответствующие сервисы компании: например, market, taxi, portal, alice, delivery, disk, drive, yandex360. Общее число архивов — 83, их объем в сжатом виде — более 44 Гб.

Например, в репозитории голосового помощника «Алиса» содержится множество скриптов для ее обучения, фрагментов обучающих данных, выборки реальных — но анонимных — запросов пользователей.

После утечки в «Яндексе» пояснили, что взлома не было. Служба безопасности компании обнаружила в открытом доступе фрагменты кода из внутреннего репозитория. В компании отметили, что их содержимое отличается от текущей версии репозитория.

«Репозитории нужны для работы с кодом и не предназначены для хранения персональных данных пользователей», — заявили в «Яндексе». В компании подчеркнули, что утечка не несет никакой угрозы для клиентов.

Как именно произошла утечка, неизвестно. Но источники vc.ru, Forbes и РБК, близкие к «Яндексу», сообщили, что к публикации данных причастен один из сотрудников компании.

Что можно получить из утечки

Персональные данные пользователей не пострадали. Разработчик Арсений Шестаков изучил файлы и объяснил, что в архивах — только содержимое репозиториев git. Там есть исходный код для части сервисов, документация, указывающая на реальные URL-адреса интрасети, и несколько ключей API, которые использовались для тестового развертывания.

Шестаков отметил, что в документах — за редким исключением — нет готовых двоичных файлов для большей части программ и почти нет предварительно обученных моделей ML.

Бывший топ-менеджер «Яндекса» Григорий Бакунов отметил, что слив подходит только для изучения кода: «Запустить из него свой Яндекс не выйдет». По его словам, что-то собрать из этого исходного кода невозможно: не хватит внутренней инфраструктуры компании и натренированных весов. Модель, которая получится, не обучена, а датасета для обучения нет.

Заместитель руководителя Центра противодействия киберугрозам Innostage CyberART Максим Акимов пояснил CNews, что, учитывая принятую agile-модель разработки программного обеспечения, часть кодов может быть актуальна. Насколько эта часть большая, сказать трудно.

Что говорят в «Яндексе» после расследования утечки

«Яндекс» раскрыл первые результаты расследования вечером 30 января 2023 года. Компания подтвердила, что опубликованные фрагменты взяты из ее внутреннего репозитория, но содержимое архива соответствует его устаревшей версии. В «Яндексе» отметили, что представленный исходный код отличается от актуальной версии, используемой сервисами сейчас.

В компании сообщили, что архивы не несут какой-либо угрозы для безопасности пользователей или работоспособности сервисов. При этом во время масштабного аудита «Яндекс» выявил несколько случаев «серьезного нарушения собственных политик, среди которых — «Принципы „Яндекса“» и «Правила корпоративной этики».

Примеры нарушений, на которые указала компания:

  1. В коде содержались контактные данные некоторых партнеров, например телефоны и номера прав водителей.
  2. Стали известны случаи, когда логику работы сервисов корректировали не алгоритмами, а «костылями» — временным решениями, реализованными неоптимально и «впопыхах».
  3. В «Яндекс-лавке» существовала возможность ручной настройки рекомендаций товаров без пометки о рекламе.
  4. Приоритетная поддержка для отдельных групп пользователей в «Яндекс-такси» и «Яндекс-еде».
  5. Части кода содержали слова, которые не влияли на работу сервисов, но были оскорбительны для людей разных рас и национальностей.

В «Яндексе» отметили, что фрагменты кода содержат тестовые алгоритмы, которые использовались внутри компании для проверки сервисов. Например, для улучшения качества работы «Алисы» в бета-версии для сотрудников применялась настройка, включавшая микрофон устройства в случайные моменты без упоминания имени ассистента.

Большинство проблем появилось из-за попыток вручную внести в сервис улучшение или устранить ошибку, отметили в компании. В будущем «Яндекс» сохранит политику нулевой терпимости к багам, позволяющей быстро внедрять изменения, но пересмотрит способы ее реализации.

В компании принесли извинения всем пользователям и партнерам, а также заявили, что сейчас им «очень стыдно».

Какие еще были крупные утечки в «Яндексе»

В марте 2022 года «Яндекс-еда» сообщила об утечке номеров телефонов клиентов и информации о заказах. Это произошло по вине одного из сотрудников. Тогда в компании заявили, что ужесточили защиту информации о заказах: она стала сопоставима с хранением данных о платежах, логинах и паролях. Число сотрудников, имеющих доступ к таким данным, сократили в три раза.

Через несколько недель в интернете опубликовали карту с данными клиентов «Яндекс-еды». Тогда сайт заблокировал Роскомнадзор, а компания добавила в сервис функцию удаления данных о заказах.

Мы постим кружочки, красивые карточки и новости о технологиях и поп-культуре в нашем телеграм-канале. Подписывайтесь, там классно: @t_technocult.

  • AlephНу нааааадо же, очередная утечка от Яндекса! Какая уже по счету за последние пару лет? Смотрю, в этой конторе ничему не учатся.6
  • AlephAleph, а здесь на скрине - всё, что нужно знать о безопасности Яндекса. На жалобу о неправомерных списаниях средств с моей карты (которые даже не отображались в личном кабинете!) они соизволили что-то ответить только после обращения с непечатными выражениями, а до того отмахивались копипастом ответов из FAQ. Причем даже ответ копипастом у них занимал по двое-трое суток - работа службы поддержки просто блестящая.12
  • Jey RoikAleph, хм, ну вон у гитхаба (Microsoft) вчера утечка была, причëм дошло до контроля над инфраструктурой. Ошибки были и будут у всех. Важнее быстро исправлять ошибки, нежели не допускать их.20
  • SkepticА почему о самых забавных кусках кода не рассказано?38
  • не читаю комментарииAlexey, чтобы что?25
  • Евгений ЕвгеньевFedor, причём это не особо работает. Можно проверить на практике.9
  • Ну, ребятам из яндекса можно разве что посочувствовать, надеюсь, челика нашли, если это слив сотрудником Кстати было бы интересно послушать, зачем он это сделал0
  • Илья ПономаревFedor, если серьезно, то потому что "нежелательная организация"0
  • ВсяВБелом5
  • AlephВсяВБелом, в этом и проблема. Что-то мне подсказывает, что они начали бы посерьёзнее относиться к вопросам безопасности, если бы после первой масштабной утечки их как следует штрафанули, а не на смехотворные 30к.7
  • Big BugAleph, а чему должны учиться то? Это же не утечка пользовательских данных, а исходные коды, и слил их один из разработчиков. От такого не застрахована даже самая защищенная компания в мире4
  • Nikolay Keskinov“ Например, для улучшения качества работы «Алисы» в бета-версии для сотрудников применялась настройка, включавшая микрофон устройства в случайные моменты без упоминания имени ассистента” Ребята врут и не краснеют :) то, что Алиса давно «слушает», знают все9
  • Nikolay KeskinovMurzetka, видно лицо настоящего поборника ценностей, самодержавия и скреп… давно наступив в какашку, продолжает защищать20
  • Nikolay KeskinovAleph, тут не утечка, а целенаправленная выгрузка материалов. Не путайте.2
  • Nikolay KeskinovBig, теоретически можно защититься, заблокировав компы с данными от подключения внешних носителей.0
  • AlephNikolay, это вы автору статьи сообщите.2
  • Макс С.Fedor, действительно4
  • кот гавне, ловите продакт менеджера2
  • Василий Макров>Части кода содержали слова, которые не влияли на работу сервисов, но были оскорбительны для людей разных рас и национальностей. Где-то видел скрин, что они то ли потоки, то ли модули называли словом "ниггер". Осуждаю.5
  • Big BugNikolay, ну мы же не в 80-х живем)) Сейчас есть миллион путей как сотрудник может угнать исходники и без физических носителей)4
  • Вот все так на Путине зациклились, как будто это самое весёлое там Я в тестах тоже могу всякую дребедень, какая в голову придёт, написать, разве что там про аниме будет, а не политику2
  • Макс С.Andre, никто не говорит, что самое веселое. Лулзов там полно, как и полезной информации для специалистов. А также есть и над чем задуматься, например что Яндекс занимается откровенной цензурой в угоду АП3
  • Nikolay KeskinovBig, можно, но мы говорили о недобросовестности сотрудника. Вряд ли он будет снимать фото или видео кода с монитора. Долго и слишком откровенно.1
Вот что еще мы писали по этой теме