×
Traktatov.net » Аналитическая культура. От сбора данных до бизнес-результатов » Читать онлайн
Страница 56 из 163 Настройки
крутая бабушка). Помочь это определить могут простые минимум и максимум, размах выборки и гистограммы.

Наконец, описательный анализ обычно бывает первым шагом — возможностью познакомиться с данными — к более глубокому анализу.

РАЗВЕДОЧНЫЙ АНАЛИЗ

Описательный анализ — важный первый шаг. При этом просто итоговых цифр может быть недостаточно. Одна из проблем заключается в том, что большое число значений сводится к нескольким итоговым цифрам. А потому не стоит удивляться, что одни и те же итоговые статистические показатели могут описывать разные выборки с разным распределением данных, формами и свойствами.

На рис. 5.3 представлены две выборки с одинаковым средним значением, равным 100, но очень разным распределением.


Рис. 5.3. А) бимодальное распределение и B) унимодальное распределение. В обоих случаях среднее значение одинаковое, примерно равно 100


Теперь это кажется не таким удивительным. У нас имеется простой итоговый статистический показатель — среднее значение одной переменной. Существует множество потенциальных «решений», или выборок, которым может соответствовать это значение.

Сейчас я покажу вам гораздо более удивительный пример. Предположим, у вас четыре набора данных с двумя переменными со следующими характеристиками.



Это система с жесткими заданными ограничениями. Значит, графики этих четырех наборов данных с идентичными статистическими характеристиками должны быть достаточно похожими, не так ли? А вот рис. 5.4 показывает, что это далеко не так.


Рис. 5.4. Квартет Энскомба. В каждом из четырех наборов данных идентичны среднее значение х, среднее значение y, дисперсия х, дисперсия y, корреляция и прямая линейной регрессии (до двух знаков после запятой)

Источник: https://en.wikipedia.org/wiki/Anscombe’s_quartet


Это так называемый квартет Энскомба[83], названный по имени математика и статистика Фрэнсиса Энскомба, который составил его в 1973 году. Энскомб выступил против существовавшей на тот момент доктрины в области статистических вычислений, которая гласила, что:


1) числовые данные точные, а графики — приблизительные;

2) для каждого конкретного вида статистических данных существует только один набор вычислений, обеспечивающий правильный статистический анализ;

3) выполнение сложных расчетов — единственно верный путь, изучение данных только вводит в заблуждение.


Энскомб утверждал:

Большинство статистических вычислений строятся на предположениях относительно поведения данных. Эти предположения могут оказаться неверными, и тогда результаты вычислений тоже будут содержать ошибку. Всегда следует пытаться проверять, являются ли предположения верными. А если они ошибочны, мы должны быть способны понять, что с ними не так. В этом весьма полезны графики.

Применение графиков для визуализации и изучения данных получило название разведочного анализа данных. Наибольшую известность он приобрел благодаря продвижению американским математиком Джоном Тьюки в книге Exploratory Data Analysis (Pearson), опубликованной в 1977 году. При правильном подходе графики помогают видеть более масштабную картину, а также отмечать очевидные или необычные закономерности (это врожденное свойство человеческого мозга). Нередко аналитические выводы и понимание данных начинают формироваться именно на этом этапе. Почему у этой кривой такое отклонение? В какой момент наступает снижение возврата на маркетинговые расходы?