Наиболее простой тип анализа данных — описательный (дескриптивный). Он обеспечивает количественное описание набора данных. Важно отметить, что этот тип анализа касается только выборки данных, по которой проводится анализ, и не описывает ту совокупность, из которой он взят. На основании описательного анализа часто формируются данные, которые отображаются в дашбордах, например количество новых пользователей за неделю или размещенных заказов с начала года (см. раздел «Дашборды» в главе 7).
Давайте начнем с одномерного анализа, то есть описывающего одну переменную (ряд или поле) из набора данных. В главе 2 мы уже обсуждали составление пятичисловой сводки, однако есть множество других возможных статистических показателей; их можно условно разделить на меры среднего уровня («середина» данных), меры рассеивания (разброса данных) и формы распределения. Ниже перечислены показатели, относящиеся к числу простейших, но при этом наиболее важных.
Размер выборки
Количество единиц (записей) в выборке данных.
Далее перечислены меры среднего уровня.
Среднее значение
Чтобы найти среднее арифметическое, нужно сложить все значения и разделить на их количество.
Среднее геометрическое
Этот показатель применяется для определения среднего значения при наличии мультипликативного эффекта, например сложных процентов со ставкой, меняющейся из года в год. Чтобы найти среднее геометрическое, нужно перемножить все значения и извлечь из них корень. Степень корня определяется количеством значений. Если вы получили 8 % в первый год, а затем по 6 % следующие три года, средняя процентная ставка составит 6,5 %.
Среднее гармоническое
Средним гармоническим называется число, обратное среднему арифметическому их обратных. Например, если вы доехали до магазина со скоростью движения 80 км/ч, а на обратной дороге попали в пробку и скорость вашего движения составила 32 км/ч, ваша средняя скорость составит не 56, а 47 км/ч.
Медиана
Медиана — 50-й процентиль.
Мода
Наиболее часто встречающееся значение.
К мерам рассеяния относятся следующие.
Минимум
Наименьшее значение в выборке (0-й процентиль).
Q1
25-й процентиль. Значение выборки такое, что одна четвертая остальных значений выборки меньше него.
Q3
75-й процентиль. Значение выборки такое, что одна четвертая остальных значений выборки больше него.
Максимум
Максимальное значение в выборке (100-й процентиль).
Межквартильный размах
Центральные 50 % данных, разность между третьим и первым квартилями.
Размах
Разница между максимумом и минимумом.
Стандартное отклонение
Наиболее распространенный показатель рассеивания значений случайной величины относительно ее математического ожидания. Вычисляется как квадратный корень из дисперсии. Измеряется в тех же единицах, что и сама случайная величина.
Дисперсия
Мера разброса значений случайной величины относительно ее математического ожидания. Вычисляется возведением стандартного отклонения в квадрат. Измеряется в квадратах единицы измерения случайной величины.
Стандартная ошибка
Вычисляется путем деления стандартного отклонения на квадратный корень размера выборки. Показывает ожидаемое стандартное отклонение среднего значения выборки, если бы мы повторно получали выборки такого же размера из того же источника генеральной совокупности.