Одураченные стати­стикой: логические ошибки
Статистика
10K
Сгенерированное изображение — Лев Переулков / Midjourney

Одураченные стати­стикой: логические ошибки

9
Аватар автора

Алексей Смагин

ведет курс по визуализации данных

Страница автора

В предыдущих материалах цикла «Одураченные статистикой» мы много рассказывали о том, как авторы искажают информацию на графиках.

В этот раз сосредоточимся на логических ошибках — неверных выводах и неправильно использованных статистических параметрах.

Как манипулируют, показывая совпадение трендов

В статистике есть такое понятие, как корреляция. Это взаимосвязь двух величин: например, чем меньше в каком-то районе города водителей такси, тем дороже поездки. Однако корреляция не означает причинно-следственную связь. Например, если мы увидим, что богатые люди умирают в более пожилом возрасте, вывод «чтобы дольше прожить, нужно больше зарабатывать» будет неверен. Скорее всего, на продолжительность жизни влияют другие факторы: хорошая медицина, здоровое питание, возможность заниматься спортом.

Иногда связь параметров можно объяснить каким-то дополнительным фактором, но немало случаев, когда эта связь случайна. Сайт Spurious Correlations ищет и коллекционирует подобные абсурдные связи: например, потребление маргарина на душу населения и количество разводов в штате Мэн. Каждый раз, когда авторы статей, где используется статистика, показывают вам зависимость одной величины от другой, полезно задуматься, есть ли у такой связи обоснования.

Источник: Spurious Correlations
Источник: Spurious Correlations

Как манипулируют, подменяя понятия

Яркий пример подмены понятий — статистика от фирмы LLC Attorney, оказывающей юридические услуги малому бизнесу. Компания подсчитала, как быстро крупнейшие корпорации США зарабатывают средний оклад своего сотрудника. Текст сопровождается цитатой: «…вы будете поражены, увидев, как быстро эти гигантские компании способны получать доход, достаточный для выплаты заработной платы каждому из своих сотрудников в течение всего года».

Крупнейшие корпорации и правда получают очень много денег, но одна деталь в этой публикации делает посыл LLC Attorney более убедительным и в то же время гораздо более манипулятивным. В материале все расчеты сделаны исходя из выручки компании, а не ее прибыли. В реальности же в некоторых отраслях прибыль может существенно отличаться от выручки: например, по данным Chartr, прибыль Walmart составляет всего 2% от доходов компании.

Подобные разборы часто публикуются и в Т⁠—⁠Ж: вы можете посмотреть, сколько в среднем на самом деле зарабатывает бизнес при продаже одной порции шаурмы или чашки капучино.

Суммы в материале завышены, поскольку не учтены издержки, которые несут компании. Источник: LLC Attorney
Суммы в материале завышены, поскольку не учтены издержки, которые несут компании. Источник: LLC Attorney

Как манипулируют, скрывая распределение значений

Журналисты сети изданий М125 провели в социальных сетях опрос «Сколько секса вам необходимо для счастья?». Результаты выложили в виде карты, а в телеграм-канале дополнили подписью: «Красносельскому району, Медведково и Восточному Измайлово, судя по всему, грозит вымирание — это единственные районы, в которых сексом не занимаются».

С этой публикацией сразу две проблемы. Во-первых, вывод журналиста слишком смелый: чтобы говорить про вымирание, надо доказать, что смертность в районах превышает рождаемость, — а с опросом это никак не связано. Отдельные вопросы вызывает карта: по ней может показаться, что некоторые районы очень сильно отличаются от остальных. В реальности это вряд ли так.

Подобное впечатление создается из-за того, что на карте визуализировали самый частый вариант ответа, проигнорировав то, насколько он опережает другие. Честнее было бы визуализировать долю каждого из вариантов отдельно — тогда такой разницы бы не было.

Наглядный пример похожей манипуляции — визуализация результатов выборов в США. Члены команды Трампа в 2019 году, когда президенту грозил импичмент, стали публиковать карту муниципалитетов США, полностью окрашенную в цвет республиканцев: она показывала, что Трамп на прошедших выборах победил в абсолютном большинстве из них. В реальности результат выборов был не таким разгромным, а по числу голосов Хиллари Клинтон даже обошла Трампа.

Результаты выборов в США вообще не стоит визуализировать на обычных картах, однако даже добавление оттенка, кодирующего степень отрыва кандидата, уже меняет восприятие картинки.

Источник: Lara Trump / X
Источник: Lara Trump / X
Так выглядит карта, которая показывает соотношение голосов у кандидатов. Источник: Washinton Post
Так выглядит карта, которая показывает соотношение голосов у кандидатов. Источник: Washinton Post

Как манипулируют, используя неправильные показатели

Еще один манипулятивный прием — использование среднего арифметического в случаях, когда оно плохо описывает выборку объектов. Представьте себе класс, где сидит 15 пятиклассников с идеальными коренными зубами, а их преподаватель — дедушка, которому заменили все 32. В среднем каждому из сидящих в классе заменили по два зуба. Логично? Кажется, не очень.

Эта манипуляция наиболее хорошо известна на примере сообщений о средних зарплатах в России. Люди всякий раз высмеивают новости об очередном росте средней зарплаты, поскольку официальная статистика отличается от их субъективной реальности в несколько раз.

Доходы — тот самый случай, когда не стоит говорить о среднем: распределение зарплат по своей форме заметно смещено в сторону низких доходов. Иными словами, тех, кто получает немного, значительно больше, чем тех, кто получает много. Для таких распределений корректнее использовать медиану — числовую величину, для которой ровно половина значений больше, а половина меньше. Например, в 2023 году, по данным Росстата, среднемесячная номинальная начисленная заработная плата составила 74 854 ₽, а медианная зарплата за тот же год — 46 751 ₽.

Как манипулируют, изменяя форму распределения

Неприятную правду можно скрыть даже тогда, когда вроде бы есть полные данные о распределении значений какого-то показателя. Один из вариантов такой манипуляции демонстрирует Росстат. Доходы россиян в своем статистическом сборнике «Социально-экономическое положение России» ведомство дает в разбивке по разным интервалам: от 7 до 10 тысяч, от 10 до 14, от 14 до 19 — разница между минимальной и максимальной суммами становится все больше.

Визуализация РБК наглядно демонстрирует, что из-за этого создается ложное впечатление: кажется, что людей с небольшими и относительно большими доходами немного, а большинство россиян живет на «средний» доход — от 27 до 45 тысяч рублей. В реальности картина другая: распределение доходов, как мы уже говорили, сильно смещено в сторону небольших значений.

Источник: РБК по данным Росстата
Источник: РБК по данным Росстата
Так выглядит распределение доходов, если нарисовать его верно. Источник: «Если быть точным» по данным РМЭЗ
Так выглядит распределение доходов, если нарисовать его верно. Источник: «Если быть точным» по данным РМЭЗ

О чем стоит помнить

  1. Если вам рассказывают о связи каких-то показателей, обращайте внимание на обоснованность таких выводов. Просто показать совпадающие тренды — недостаточно.
  2. Если вам показывают самое частое значение для какой-то группы, от вас могут скрывать часть информации. Обычно полезно знать, как другие варианты отличаются от лидирующего.
  3. Когда смотрите на распределение какой-то величины, обратите внимание на интервалы: в некоторых случаях неравные интервалы могут быть попыткой манипуляции.

Жизнь россиян в цифрах: что едят, сколько работают, куда ездят и на что тратят деньги. Подписывайтесь, чтобы не пропустить самое интересное: @t_stata

Алексей СмагинСталкивались с похожими манипуляциями? Расскажите об этом:
  • Эгэин АйлбибековМосква на карте выглядит как вирус...3
  • GrigoriyЭгэин, так и есть0
  • Александр БеляковОчень интересно, пиши ещё.2
  • Алексей ПетровСтатистика крайне важная наука, потому что без нее невозможно понять, что происходит в той или иной отрасли, и какие меры надо принимать, чтобы оно происходило в правильном направлении. Однако чрезмерное увлечение циферками и столбиками без понимания основных тенденций к добру не приводит. Тем более что любая методика подсчета всегда субъективна, и может быть подправлена в любую сторону из самых разных побуждений. Скажем, живет человек в возрасте 50 лет в квартире с собакой, собаке 10 лет. Средний возраст обитателей квартиры 30 лет. Теперь на основе этого показателя рассчитаем время их активной работы. До пенсии в среднем им обоим 35 лет (если оба мужского пола). Только собака не доживет, но это будет уже проблема следующего поколения статистиков :) Или к примеру рассчитываем в организации KPI. У всех офисных работников оно 6..10, а у уборщицы всего 5, потому что она тут на полставки работает и относительно общего рабочего времени ее результаты не впечатляют. Увольняем уборщицу, как неэффективную, и все по колено в мусоре :) Допустимая кем-то доля отчисленных за весь срок обучения студентов не более 10%. Перестаем отчислять студентов, а вместо этого отправляем их всех в академотпуск, даже если им это не нужно. Они переваливаются с курса на курс, учатся в бакалавриате по 10 лет, отравляют своим бездельем умных студентов, зато по статистике у нас отличная успеваемость. Выполнили к концу года норматив по средней зарплате бюджетников в организации (притом что основная масса людей получает гроши) - не надо платить им премию по итогам года, норматив же выполнен, а то в следующий раз будет снижение показателя год к году. В крайнем случае можно в марте следующего года заплатить что-то, только обрадуются, чай не баре.6
  • НиколайВ этой статье манипуляция доходы населения за 23 и 24 могут быть разными?0
  • Алексей СмагинНиколай, доходы населения могут быть разными. Но текст — о форме распределения. В одном случае столбики нарисованы через равные интервалы. А в другом — нет. Из-за этого распределение выглядит по-разному. Разница в зарплатах не настолько существенна, чтобы форма распределения поменялась.0
  • Дионисий ПавловАлексей, собственно говоря, если интервалы увеличиваются от столбика к столбику на один и тот же коэффициент, то это тоже корректный график - просто он логарифмически нормирован (т.е. имеет логарифмическую шкалу в отличие от обычной шкалы линейного графика). Это позволяет во первых лучше разглядеть что интересного происходит среди малых значений столбцов. А во вторых он лучше отображает вещи, имеющие в себе природу геометрической прогрессии. В данном случае (с зарплатами) новый линейный график показывает распределение населения по простому размеру зарплат, а исходный нормированный график показывает распределение населения по категориям, в каждой из которых размер зарплаты на четверть больше, чем у предыдущей (геометрическая прогрессия). Другой вопрос что в самом названии диаграммы стоит эту нормированнось упоминать. Т.е. вместо фразы "распределение доходов" правильно было бы написать что-то типа "10 этапов роста зарплаты на 25% и текущее распределение населения - кто на каком этапе находится).0
  • Софья МальцеваДа. Так и "выполнили" майские указы президента касательно увеличения зарплат врачей. Во-первых, изначально считали не на 1 ставку (это для обывателя пресловутый рабочий день 8 часов 5 дней в неделю), а считали как реально работают врачи 1,5-1,75, иногда и на 2 ставки (а это сродни 12 часовому рабочему дню 6 раз в неделю, а 2 ставки соотвественно 16 часов на пятидневке). Во-вторых, реальная зп с 2016 по 2024 год сперва упала на 20%, потом выросла на 15% от исходной. А официально - выросла в 3,5 раза и достигла двукратного размера по отношению к "средней ЗП по региону". И касательно своей научной работы. Получила, скажем так, странную корелляцию. Привыкли, что корелляция= всегда связаны друг с другом0
  • АналитессаАлексей, я бы ещё уточнила, что зарплаты собирают по данным отчётности компаний, а распределение доходов - опрос населения. Ну и базово ещё, что доход не равен зарплате. Но как будто это про другую манипуляцию)1