Неделю назад в открытом доступе появилась часть исходных кодов сервисов «Яндекса».
В опубликованных папках нет персональных данных пользователей, но содержится множество фрагментов кода таких проектов компании, как «Такси», «Еда», «Почта» и «Алиса». В «Яндексе» говорят, что файлы неактуальны: содержимое соответствует устаревшей версии репозитория.
Рассказываем, что известно об утечке и внутреннем расследовании «Яндекса» по ее итогам.
Что случилось
Об утечке стало известно 25 января 2023 года. Пользователи форума Hacker News сообщили о публикации папок с исходным кодом «Яндекса». Все файлы в архивах не новые: каждый из них датирован 24 февраля 2022 года.
Набор включает несколько архивов, по названиям которых можно идентифицировать соответствующие сервисы компании: например, market, taxi, portal, alice, delivery, disk, drive, yandex360. Общее число архивов — 83, их объем в сжатом виде — более 44 Гб.
Например, в репозитории голосового помощника «Алиса» содержится множество скриптов для ее обучения, фрагментов обучающих данных, выборки реальных — но анонимных — запросов пользователей.
После утечки в «Яндексе» пояснили, что взлома не было. Служба безопасности компании обнаружила в открытом доступе фрагменты кода из внутреннего репозитория. В компании отметили, что их содержимое отличается от текущей версии репозитория.
«Репозитории нужны для работы с кодом и не предназначены для хранения персональных данных пользователей», — заявили в «Яндексе». В компании подчеркнули, что утечка не несет никакой угрозы для клиентов.
Как именно произошла утечка, неизвестно. Но источники vc.ru, Forbes и РБК, близкие к «Яндексу», сообщили, что к публикации данных причастен один из сотрудников компании.
Что можно получить из утечки
Персональные данные пользователей не пострадали. Разработчик Арсений Шестаков изучил файлы и объяснил, что в архивах — только содержимое репозиториев git. Там есть исходный код для части сервисов, документация, указывающая на реальные URL-адреса интрасети, и несколько ключей API, которые использовались для тестового развертывания.
Шестаков отметил, что в документах — за редким исключением — нет готовых двоичных файлов для большей части программ и почти нет предварительно обученных моделей ML.
Бывший топ-менеджер «Яндекса» Григорий Бакунов отметил, что слив подходит только для изучения кода: «Запустить из него свой Яндекс не выйдет». По его словам, что-то собрать из этого исходного кода невозможно: не хватит внутренней инфраструктуры компании и натренированных весов. Модель, которая получится, не обучена, а датасета для обучения нет.
Заместитель руководителя Центра противодействия киберугрозам Innostage CyberART Максим Акимов пояснил CNews, что, учитывая принятую agile-модель разработки программного обеспечения, часть кодов может быть актуальна. Насколько эта часть большая, сказать трудно.
Что говорят в «Яндексе» после расследования утечки
«Яндекс» раскрыл первые результаты расследования вечером 30 января 2023 года. Компания подтвердила, что опубликованные фрагменты взяты из ее внутреннего репозитория, но содержимое архива соответствует его устаревшей версии. В «Яндексе» отметили, что представленный исходный код отличается от актуальной версии, используемой сервисами сейчас.
В компании сообщили, что архивы не несут какой-либо угрозы для безопасности пользователей или работоспособности сервисов. При этом во время масштабного аудита «Яндекс» выявил несколько случаев «серьезного нарушения собственных политик, среди которых — «Принципы „Яндекса“» и «Правила корпоративной этики».
Примеры нарушений, на которые указала компания:
- В коде содержались контактные данные некоторых партнеров, например телефоны и номера прав водителей.
- Стали известны случаи, когда логику работы сервисов корректировали не алгоритмами, а «костылями» — временным решениями, реализованными неоптимально и «впопыхах».
- В «Яндекс-лавке» существовала возможность ручной настройки рекомендаций товаров без пометки о рекламе.
- Приоритетная поддержка для отдельных групп пользователей в «Яндекс-такси» и «Яндекс-еде».
- Части кода содержали слова, которые не влияли на работу сервисов, но были оскорбительны для людей разных рас и национальностей.
В «Яндексе» отметили, что фрагменты кода содержат тестовые алгоритмы, которые использовались внутри компании для проверки сервисов. Например, для улучшения качества работы «Алисы» в бета-версии для сотрудников применялась настройка, включавшая микрофон устройства в случайные моменты без упоминания имени ассистента.
Большинство проблем появилось из-за попыток вручную внести в сервис улучшение или устранить ошибку, отметили в компании. В будущем «Яндекс» сохранит политику нулевой терпимости к багам, позволяющей быстро внедрять изменения, но пересмотрит способы ее реализации.
В компании принесли извинения всем пользователям и партнерам, а также заявили, что сейчас им «очень стыдно».
Какие еще были крупные утечки в «Яндексе»
В марте 2022 года «Яндекс-еда» сообщила об утечке номеров телефонов клиентов и информации о заказах. Это произошло по вине одного из сотрудников. Тогда в компании заявили, что ужесточили защиту информации о заказах: она стала сопоставима с хранением данных о платежах, логинах и паролях. Число сотрудников, имеющих доступ к таким данным, сократили в три раза.
Через несколько недель в интернете опубликовали карту с данными клиентов «Яндекс-еды». Тогда сайт заблокировал Роскомнадзор, а компания добавила в сервис функцию удаления данных о заказах.
Мы постим кружочки, красивые карточки и новости о технологиях и поп-культуре в нашем телеграм-канале. Подписывайтесь, там классно: @t_technocult.
А почему о самых забавных кусках кода не рассказано?
Fedor, причём это не особо работает. Можно проверить на практике.
Fedor, действительно
Вот все так на Путине зациклились, как будто это самое весёлое там
Я в тестах тоже могу всякую дребедень, какая в голову придёт, написать, разве что там про аниме будет, а не политику
Andre, никто не говорит, что самое веселое. Лулзов там полно, как и полезной информации для специалистов. А также есть и над чем задуматься, например что Яндекс занимается откровенной цензурой в угоду АП
Будет другая АП – не будет заниматься, не забываем, что так-то Яндекс предупреждал представителей власти о негативных последствиях: https://yandex.ru/blog/company/68266
Стоит ли ругать яндекс за то, что он выбрал такой путь – не думаю
Fedor, если серьезно, то потому что "нежелательная организация"
Alexey, чтобы что?
не, ловите продакт менеджера
Murzetka, видно лицо настоящего поборника ценностей, самодержавия и скреп… давно наступив в какашку, продолжает защищать
“ Например, для улучшения качества работы «Алисы» в бета-версии для сотрудников применялась настройка, включавшая микрофон устройства в случайные моменты без упоминания имени ассистента”
Ребята врут и не краснеют :) то, что Алиса давно «слушает», знают все
Ну нааааадо же, очередная утечка от Яндекса! Какая уже по счету за последние пару лет?
Смотрю, в этой конторе ничему не учатся.
Aleph, хм, ну вон у гитхаба (Microsoft) вчера утечка была, причëм дошло до контроля над инфраструктурой.
Ошибки были и будут у всех.
Важнее быстро исправлять ошибки, нежели не допускать их.
Aleph, а здесь на скрине - всё, что нужно знать о безопасности Яндекса.
На жалобу о неправомерных списаниях средств с моей карты (которые даже не отображались в личном кабинете!) они соизволили что-то ответить только после обращения с непечатными выражениями, а до того отмахивались копипастом ответов из FAQ. Причем даже ответ копипастом у них занимал по двое-трое суток - работа службы поддержки просто блестящая.
Aleph, а чему должны учиться то? Это же не утечка пользовательских данных, а исходные коды, и слил их один из разработчиков. От такого не застрахована даже самая защищенная компания в мире
Big, теоретически можно защититься, заблокировав компы с данными от подключения внешних носителей.
Nikolay, ну мы же не в 80-х живем)) Сейчас есть миллион путей как
сотрудник может угнать исходники и без физических носителей)
Big, можно, но мы говорили о недобросовестности сотрудника. Вряд ли он будет снимать фото или видео кода с монитора. Долго и слишком откровенно.
Aleph, тут не утечка, а целенаправленная выгрузка материалов. Не путайте.
Nikolay, это вы автору статьи сообщите.
Комментарий удален пользователем
ВсяВБелом, в этом и проблема. Что-то мне подсказывает, что они начали бы посерьёзнее относиться к вопросам безопасности, если бы после первой масштабной утечки их как следует штрафанули, а не на смехотворные 30к.
>Части кода содержали слова, которые не влияли на работу сервисов, но были оскорбительны для людей разных рас и национальностей.
Где-то видел скрин, что они то ли потоки, то ли модули называли словом "ниггер". Осуждаю.
Ну, ребятам из яндекса можно разве что посочувствовать, надеюсь, челика нашли, если это слив сотрудником
Кстати было бы интересно послушать, зачем он это сделал