В открытый доступ попал исходный код «Яндекса»: что известно об утечке и последствиях

Саша Кириллова

следит за новостями

Неделю назад в открытом доступе появилась часть исходных кодов сервисов «Яндекса».

В опубликованных папках нет персональных данных пользователей, но содержится множество фрагментов кода таких проектов компании, как «Такси», «Еда», «Почта» и «Алиса». В «Яндексе» говорят, что файлы неактуальны: содержимое соответствует устаревшей версии репозитория.

Рассказываем, что известно об утечке и внутреннем расследовании «Яндекса» по ее итогам.

БЕСПЛАТНЫЙ КУРС

Как управлять личными финансами

И перестать беспокоиться о деньгах, наладить с ними отношения и двигаться к целям и мечтам

Узнать

Что случилось

Об утечке стало известно 25 января 2023 года. Пользователи форума Hacker News сообщили о публикации папок с исходным кодом «Яндекса». Все файлы в архивах не новые: каждый из них датирован 24 февраля 2022 года.

Набор включает несколько архивов, по названиям которых можно идентифицировать соответствующие сервисы компании: например, market, taxi, portal, alice, delivery, disk, drive, yandex360. Общее число архивов — 83, их объем в сжатом виде — более 44 Гб.

Например, в репозитории голосового помощника «Алиса» содержится множество скриптов для ее обучения, фрагментов обучающих данных, выборки реальных — но анонимных — запросов пользователей.

После утечки в «Яндексе» пояснили, что взлома не было. Служба безопасности компании обнаружила в открытом доступе фрагменты кода из внутреннего репозитория. В компании отметили, что их содержимое отличается от текущей версии репозитория.

«Репозитории нужны для работы с кодом и не предназначены для хранения персональных данных пользователей», — заявили в «Яндексе». В компании подчеркнули, что утечка не несет никакой угрозы для клиентов.

Как именно произошла утечка, неизвестно. Но источники vc.ru, Forbes и РБК, близкие к «Яндексу», сообщили, что к публикации данных причастен один из сотрудников компании.

Что можно получить из утечки

Персональные данные пользователей не пострадали. Разработчик Арсений Шестаков изучил файлы и объяснил, что в архивах — только содержимое репозиториев git. Там есть исходный код для части сервисов, документация, указывающая на реальные URL-адреса интрасети, и несколько ключей API, которые использовались для тестового развертывания.

Шестаков отметил, что в документах — за редким исключением — нет готовых двоичных файлов для большей части программ и почти нет предварительно обученных моделей ML.

Бывший топ-менеджер «Яндекса» Григорий Бакунов отметил, что слив подходит только для изучения кода: «Запустить из него свой Яндекс не выйдет». По его словам, что-то собрать из этого исходного кода невозможно: не хватит внутренней инфраструктуры компании и натренированных весов. Модель, которая получится, не обучена, а датасета для обучения нет.

Лучшие умные колонки: топ удачных моделей

Заместитель руководителя Центра противодействия киберугрозам Innostage CyberART Максим Акимов пояснил CNews, что, учитывая принятую agile-модель разработки программного обеспечения, часть кодов может быть актуальна. Насколько эта часть большая, сказать трудно.

Что говорят в «Яндексе» после расследования утечки

«Яндекс» раскрыл первые результаты расследования вечером 30 января 2023 года. Компания подтвердила, что опубликованные фрагменты взяты из ее внутреннего репозитория, но содержимое архива соответствует его устаревшей версии. В «Яндексе» отметили, что представленный исходный код отличается от актуальной версии, используемой сервисами сейчас.

В компании сообщили, что архивы не несут какой-либо угрозы для безопасности пользователей или работоспособности сервисов. При этом во время масштабного аудита «Яндекс» выявил несколько случаев «серьезного нарушения собственных политик, среди которых — «Принципы „Яндекса“» и «Правила корпоративной этики».

Примеры нарушений, на которые указала компания:

В коде содержались контактные данные некоторых партнеров, например телефоны и номера прав водителей.
Стали известны случаи, когда логику работы сервисов корректировали не алгоритмами, а «костылями» — временным решениями, реализованными неоптимально и «впопыхах».
В «Яндекс-лавке» существовала возможность ручной настройки рекомендаций товаров без пометки о рекламе.
Приоритетная поддержка для отдельных групп пользователей в «Яндекс-такси» и «Яндекс-еде».
Части кода содержали слова, которые не влияли на работу сервисов, но были оскорбительны для людей разных рас и национальностей.

Как сохранить конфиденциальность в интернете: 8 вопросов специалисту по кибербезопасности

В «Яндексе» отметили, что фрагменты кода содержат тестовые алгоритмы, которые использовались внутри компании для проверки сервисов. Например, для улучшения качества работы «Алисы» в бета-версии для сотрудников применялась настройка, включавшая микрофон устройства в случайные моменты без упоминания имени ассистента.

Большинство проблем появилось из-за попыток вручную внести в сервис улучшение или устранить ошибку, отметили в компании. В будущем «Яндекс» сохранит политику нулевой терпимости к багам, позволяющей быстро внедрять изменения, но пересмотрит способы ее реализации.

В компании принесли извинения всем пользователям и партнерам, а также заявили, что сейчас им «очень стыдно».

Какие еще были крупные утечки в «Яндексе»

В марте 2022 года «Яндекс-еда» сообщила об утечке номеров телефонов клиентов и информации о заказах. Это произошло по вине одного из сотрудников. Тогда в компании заявили, что ужесточили защиту информации о заказах: она стала сопоставима с хранением данных о платежах, логинах и паролях. Число сотрудников, имеющих доступ к таким данным, сократили в три раза.

Что делать, если мои персональные данные попали в открытый доступ после утечки?

Через несколько недель в интернете опубликовали карту с данными клиентов «Яндекс-еды». Тогда сайт заблокировал Роскомнадзор, а компания добавила в сервис функцию удаления данных о заказах.

Мы постим кружочки, красивые карточки и новости о технологиях и поп-культуре в нашем телеграм-канале. Подписывайтесь, там классно: @t_technocult.

актуальное интернет технологии новости технологий безопасность

AlephНу нааааадо же, очередная утечка от Яндекса! Какая уже по счету за последние пару лет? Смотрю, в этой конторе ничему не учатся.6
AlephAleph, а здесь на скрине - всё, что нужно знать о безопасности Яндекса. На жалобу о неправомерных списаниях средств с моей карты (которые даже не отображались в личном кабинете!) они соизволили что-то ответить только после обращения с непечатными выражениями, а до того отмахивались копипастом ответов из FAQ. Причем даже ответ копипастом у них занимал по двое-трое суток - работа службы поддержки просто блестящая.12
Jey RoikAleph, хм, ну вон у гитхаба (Microsoft) вчера утечка была, причëм дошло до контроля над инфраструктурой. Ошибки были и будут у всех. Важнее быстро исправлять ошибки, нежели не допускать их.20
SkepticА почему о самых забавных кусках кода не рассказано?38
не читаю комментарииAlexey, чтобы что?25
Евгений ЕвгеньевFedor, причём это не особо работает. Можно проверить на практике.9
Andre MacarenoНу, ребятам из яндекса можно разве что посочувствовать, надеюсь, челика нашли, если это слив сотрудником Кстати было бы интересно послушать, зачем он это сделал0
Илья ПономаревFedor, если серьезно, то потому что "нежелательная организация"0
ВсяВБелом5
AlephВсяВБелом, в этом и проблема. Что-то мне подсказывает, что они начали бы посерьёзнее относиться к вопросам безопасности, если бы после первой масштабной утечки их как следует штрафанули, а не на смехотворные 30к.7
Big BugAleph, а чему должны учиться то? Это же не утечка пользовательских данных, а исходные коды, и слил их один из разработчиков. От такого не застрахована даже самая защищенная компания в мире4
Nikolay Keskinov“ Например, для улучшения качества работы «Алисы» в бета-версии для сотрудников применялась настройка, включавшая микрофон устройства в случайные моменты без упоминания имени ассистента” Ребята врут и не краснеют :) то, что Алиса давно «слушает», знают все9
Nikolay KeskinovMurzetka, видно лицо настоящего поборника ценностей, самодержавия и скреп… давно наступив в какашку, продолжает защищать20
Nikolay KeskinovAleph, тут не утечка, а целенаправленная выгрузка материалов. Не путайте.2
Nikolay KeskinovBig, теоретически можно защититься, заблокировав компы с данными от подключения внешних носителей.0
AlephNikolay, это вы автору статьи сообщите.2
Макс С.Fedor, действительно4
кот гавне, ловите продакт менеджера2
Василий Макров>Части кода содержали слова, которые не влияли на работу сервисов, но были оскорбительны для людей разных рас и национальностей. Где-то видел скрин, что они то ли потоки, то ли модули называли словом "ниггер". Осуждаю.5
Big BugNikolay, ну мы же не в 80-х живем)) Сейчас есть миллион путей как сотрудник может угнать исходники и без физических носителей)4
Andre MacarenoВот все так на Путине зациклились, как будто это самое весёлое там Я в тестах тоже могу всякую дребедень, какая в голову придёт, написать, разве что там про аниме будет, а не политику2
Макс С.Andre, никто не говорит, что самое веселое. Лулзов там полно, как и полезной информации для специалистов. А также есть и над чем задуматься, например что Яндекс занимается откровенной цензурой в угоду АП3
Nikolay KeskinovBig, можно, но мы говорили о недобросовестности сотрудника. Вряд ли он будет снимать фото или видео кода с монитора. Долго и слишком откровенно.1