В 2009 году Netflix объявила победителя. Им стала группа из семи человек, в состав которой входили статистики и программисты из США, Австрии, Канады и Израиля. Увы, я не могу описать здесь – даже в приложении – систему-победителя. Объяснение принципа ее действия занимает 92 страницы. Качество рекомендаций Netflix произвело на меня неизгладимое впечатление. Тем не менее система Netflix – просто супернавороченная вариация того, чем занимаются люди с момента появления кинематографа: найти кого-либо со схожими вкусами и попросить порекомендовать вам тот или иной фильм. Вам, как правило, нравятся те же фильмы, что и мне, и не нравятся те же фильмы, что и мне. Так что вы думаете о новом фильме Джорджа Клуни?
В этом и состоит суть корреляции.
Приложение к главе 4
Чтобы вычислить коэффициент корреляции между двумя совокупностями чисел, вы должны выполнить перечисленные ниже действия, каждое из которых иллюстрируется путем использования данных о значениях роста и веса для 15 гипотетических учащихся в приведенной ниже таблице.
1. Преобразуйте рост каждого учащегося в стандартные единицы: (рост ‒ среднее значение) / стандартное отклонение.
2. Преобразуйте вес каждого из учащихся в стандартные единицы: (вес ‒ среднее значение) / стандартное отклонение.
3. Для каждого учащегося вычислите произведение (вес в стандартных единицах) × (рост в стандартных единицах). Вы должны увидеть, что это число будет самым большим по абсолютному значению, когда рост и вес ученика расположены относительно далеко от своих средних значений.
4. Коэффициент корреляции представляет собой сумму произведений, вычисленных выше, деленную на количество наблюдений (в нашем случае – 15).
Корреляция между ростом и весом для этой группы учащихся – 0,83. Учитывая, что коэффициент корреляции может находиться в диапазоне от −1 до 1, это относительно высокая степень положительной корреляции, чего и следовало ожидать.
A – Учащийся; B – Рост; C – Вес; D – Рост в стандартных единицах; E – Вес в стандартных единицах; F – (Вес в стандартных единицах) × (Рост в стандартных единицах)
Формула для вычисления коэффициента корреляции требует небольшого отступления, которое понадобится для того, чтобы объяснить систему обозначений, используемую в данном случае. Символ ∑ часто применяется в статистике. Он обозначает суммирование величин, которые указаны после него. Если, например, имеется некая совокупность наблюдений x1, x2, x3 и x4, то запись ∑ (xi) говорит о том, что мы должны суммировать четыре наблюдения: x1 + x2 + x3 + x4. Таким образом, ∑ (xi) = x1 + x2 + x3 + x4. Наша формула для среднего значения совокупности из n наблюдений может быть представлена в следующем виде: среднее значение = ∑ (xi)/n.
Мы можем придать этой формуле еще более универсальный вид, записав ее как