Одураченные статис­тикой: два самых частых способа обмана при помощи некор­ректных графиков
Статистика
4K
Сгенерированное изображение — Лев Переулков / Midjourney

Одураченные статис­тикой: два самых частых способа обмана при помощи некор­ректных графиков

О чем нужно знать, чтобы не попасться на удочку манипуляторов
5
Аватар автора

Алексей Смагин

учит студентов визуализировать данные

Страница автора

Графики делают статьи и презентации убедительнее, но не всегда отражают реальность.

Мы запускаем новую рубрику — «Одураченные статистикой», в которой будем рассказывать, как авторы инфографики и аналитических материалов обманывают читателей. Разберемся, какие приемы они используют и как не дать себя обмануть. В этой статье я расскажу о хитростях, которые применяют при визуализации данных.

Как работает визуализация данных

Человеческому мозгу проще обрабатывать информацию, представленную в виде картинки, а не виде букв и цифр. В этом главное преимущество и главная опасность инфографики. С одной стороны, визуализация данных избавляет нас от необходимости сравнивать величины в уме, с другой — ставит в зависимость от автора изображения.

Поверхностно посмотрев на некоторые графики, легко сделать неверный вывод. Иногда авторы подобных работ делают ошибки ненамеренно, а иногда — осознанно манипулируют зрителями. Чтобы не попасться на такие манипуляции, полезно понимать, как вообще работают графики.

В основе визуализации данных — кодирование информации при помощи разных свойств геометрических фигур. Это может быть, например, высота, площадь, положение фигур или их цвет.

На иллюстрации ниже — инфографика из статьи Т⁠—⁠Ж, где визуализированы температуры в Москве. Каждая полоска обозначает месяц, ее положение — конкретную дату на временной оси, цвет — был ли этот месяц более теплым или более холодным, чем в среднем тот же месяц в 1961—1990 годах. Благодаря картинке мы можем понять, что температура в 1991—2021 годах почти всегда была выше, чем в среднем в аналогичные месяцы 30 лет назад.

Источник: Т⁠—⁠Ж
Источник: Т⁠—⁠Ж

Как манипулируют при помощи некорректного отображения данных

Одно из важных свойств инфографики — строгое соответствие данным. Если размеры, положение и цвета элементов не будут изменяться пропорционально числам, инфографика получится даже вредной.

Простейший пример такой «вредной» инфографики — картинка, которую опубликовала в социальной сети X администрация Центрального района Минска. Кроме прочих ошибок положение точек на оси здесь не соответствует значениям чисел. На этом графике 160 музеев в 2011 году выглядят меньше, чем 156 музеев в 2016. Это похоже на осознанную манипуляцию — так делают, когда хотят продемонстрировать рост показателя при реальном его отсутствии.

Источник: аккаунт администрации Центрального района Минска / X
Источник: аккаунт администрации Центрального района Минска / X

Как манипулируют, делая оси не от нуля

Еще одна распространенная проблема — когда разницу между числами хотят показать больше, чем на самом деле. Особенно явно видно это на примере абсурдной картинки про рост женщин в разных странах.

Глядя на изображение ниже, можно подумать, что женщины в Индии в три раза ниже, чем женщины в Латвии. На самом же деле разница не так велика — просто отсчет на графике начали не от нуля.

Источник: @reina_sabah / X
Источник: @reina_sabah / X

Это правило особенно важно соблюдать для диаграмм, в которых числа закодированы высотой или площадью фигуры — например, столбиковых диаграмм, или, как их еще называют, барчартов. Однако делают это не все.

Ниже — пример классической манипуляции. Технологическая компания Snowflake сравнивает свою новую ИИ-модель с конкурентами и обрезает 96% оси, с 0 до 54, тогда как максимальное значение — 56. Если не вглядываться в числа, легко подумать, что их решение на голову выше всех разработок конкурентов. В реальности ситуация не такая радужная.

Картинка из блога Snowflake
А вот как могли бы выглядеть данные, если бы были верно визуализированы

Когда можно делать оси не от нуля

Иногда ось не от нуля — это не ошибка дизайнера, а необходимость. Так бывает, когда данные не нужно сравнивать. Разберем на конкретном примере. Понятно, что возраст выхода на пенсию в разных странах будет различаться всего на несколько лет. Здесь важнее показать, какая из стран на каком месте. В этом случае дизайнеры могут использовать графики, в которых числовое значение кодируется не размером элемента, а его координатой.

Ниже — пример из Т⁠—⁠Ж. Здесь показана средняя продолжительность популярных песен, и ось длительности начинается с 1:30. Ничего страшного в этом нет: каждая песня обозначена точкой, так что мы отмечаем лишь их положение. К примеру, мы понимаем, что «Выпускной» Басты находится правее, чем песня Be Mine, но вряд ли будем сравнивать, насколько именно. Однако при взгляде на такие графики все равно полезно смотреть, откуда начинается ось, — чтобы точно не запутаться.

Источник: Т⁠—⁠Ж
Источник: Т⁠—⁠Ж

Как не стать жертвой манипуляторов

  1. Всегда смотреть не только на то, как визуализирована информация, но и на числа на графике. Иногда авторы изображений сознательно рисуют рост там, где его нет.
  2. Если элементы на графике кратно различаются по длине или высоте, полезно проверить, пропорционален ли их размер числам. Если окажется, что нет, — высока вероятность того, что разницу визуально завысили.
  3. Стоит смотреть на то, где начинаются и заканчиваются оси на графике. Так вы будете лучше понимать, как различаются числа.

Жизнь россиян в цифрах: что едят, сколько работают, куда ездят и на что тратят деньги. Подписывайтесь, чтобы не пропустить самое интересное: @t_stata

Алексей СмагинСталкивались с похожими манипуляциями? Расскажите или покажите:
  • Мария ПавловаПоделюсь восхитительно информативным графиком. Он показывает, какую долю металлолома в разных странах используют в качестве сырья для производства стали. Кажется, что вторичная переработка лома в мире стремительно падает (красный тренд), и в связи с этим количество какого-то «плохого» металлолома растёт (зелёные столбики неравномерно увеличиваются слева направо). А на самом деле в красную линию соединены независимые показатели — доли лома в сырье, относящиеся к отдельным странам. И до кучи % сопоставлены с тоннами ))7
  • Анастасия КовалевскаяКуда ж тут без классики))24
  • Алёнка МартыноваАнастасия, это что за шедевр4
  • Анастасия КовалевскаяАлёнка, из книги "Евангелие от летающего макаронного монстра".0
  • Надежда ЗолотоваХа-ха-ха, скажите ваши советы Тинькофф банку, где они в приложении показывают процент накоплений по вкладу барами (столбцами). Вот где введение в заблуждение во всей красе.0