×
Traktatov.net » Голая статистика. Самая интересная книга о самой скучной науке » Читать онлайн
Страница 52 из 192 Настройки
.

В 2009 году Netflix объявила победителя. Им стала группа из семи человек, в состав которой входили статистики и программисты из США, Австрии, Канады и Израиля. Увы, я не могу описать здесь – даже в приложении – систему-победителя. Объяснение принципа ее действия занимает 92 страницы. Качество рекомендаций Netflix произвело на меня неизгладимое впечатление. Тем не менее система Netflix – просто супернавороченная вариация того, чем занимаются люди с момента появления кинематографа: найти кого-либо со схожими вкусами и попросить порекомендовать вам тот или иной фильм. Вам, как правило, нравятся те же фильмы, что и мне, и не нравятся те же фильмы, что и мне. Так что вы думаете о новом фильме Джорджа Клуни?

В этом и состоит суть корреляции.

Приложение к главе 4

Чтобы вычислить коэффициент корреляции между двумя совокупностями чисел, вы должны выполнить перечисленные ниже действия, каждое из которых иллюстрируется путем использования данных о значениях роста и веса для 15 гипотетических учащихся в приведенной ниже таблице.

1. Преобразуйте рост каждого учащегося в стандартные единицы: (рост ‒ среднее значение) / стандартное отклонение.

2. Преобразуйте вес каждого из учащихся в стандартные единицы: (вес ‒ среднее значение) / стандартное отклонение.

3. Для каждого учащегося вычислите произведение (вес в стандартных единицах) × (рост в стандартных единицах). Вы должны увидеть, что это число будет самым большим по абсолютному значению, когда рост и вес ученика расположены относительно далеко от своих средних значений.

4. Коэффициент корреляции представляет собой сумму произведений, вычисленных выше, деленную на количество наблюдений (в нашем случае – 15).


Корреляция между ростом и весом для этой группы учащихся – 0,83. Учитывая, что коэффициент корреляции может находиться в диапазоне от −1 до 1, это относительно высокая степень положительной корреляции, чего и следовало ожидать.

A – Учащийся; B – Рост; C – Вес; D – Рост в стандартных единицах; E – Вес в стандартных единицах; F – (Вес в стандартных единицах) × (Рост в стандартных единицах)



Формула для вычисления коэффициента корреляции требует небольшого отступления, которое понадобится для того, чтобы объяснить систему обозначений, используемую в данном случае. Символ ∑ часто применяется в статистике. Он обозначает суммирование величин, которые указаны после него. Если, например, имеется некая совокупность наблюдений x1, x2, x3 и x4, то запись ∑ (xi) говорит о том, что мы должны суммировать четыре наблюдения: x1 + x2 + x3 + x4. Таким образом, ∑ (xi) = x1 + x2 + x3 + x4. Наша формула для среднего значения совокупности из n наблюдений может быть представлена в следующем виде: среднее значение = ∑ (xi)/n.

Мы можем придать этой формуле еще более универсальный вид, записав ее как

Эта формула означает суммирование величин x1 + x2 + x3 +…+ xn, или, другими словами, начиная с x1 (поскольку i = 1) до xn включительно (поскольку i = n). Наша формула для среднего значения совокупности из n наблюдений может быть представлена в следующем виде: