4. Корреляция
Откуда Netflix известно, какие фильмы мне нравятся?
Netflix[18] утверждает, что мне точно понравится документальный фильм Bhutto, рассказывающий о жизни и трагической смерти бывшего пакистанского премьер-министра Беназир Бхутто. Возможно, мне действительно понравится этот фильм (я уже добавил его в список кинолент, которые собираюсь посмотреть). Прошлые рекомендации были просто потрясающими. К тому же когда Netflix советовала что-то из того, что я уже видел, то, как правило, фильм был из тех, которыми я действительно наслаждался.
Каким образом Netflix проделывает свои «фокусы»? Может быть, в штаб-квартире компании работает большое число стажеров, которые с помощью Google и опроса членов моей семьи и друзей «вычислили», что меня может заинтересовать документальный фильм о бывшем пакистанском премьер-министре? Конечно нет. Просто Netflix мастерски, со знанием дела использовала статистические данные. Netflix не знакома со мной. Но ей известно, какие фильмы мне понравились в прошлом (поскольку я выставлял им рейтинги). Воспользовавшись этой информацией наряду с рейтингами других кинозрителей и мощным компьютером, Netflix сумела сделать на удивление точные прогнозы относительно моих вкусов и предпочтений.
Я еще вернусь к алгоритму, который применила Netflix при составлении таких прогнозов, пока же достаточно будет сказать, что они основаны на корреляции. Netflix рекомендует фильмы, похожие на те, которые мне когда-то понравились или получили высокие оценки от других кинозрителей, чьи рейтинги подобны моим. Фильм Bhutto мне посоветовали потому, что в свое время я присвоил пятизвездочные рейтинги двум другим документальным фильмам: Enron: The Smartest Guys in the Room и Fog of War.
Корреляция измеряет степень связи между двумя явлениями. Например, существует корреляция между летними температурами и продажей мороженого. Когда повышается температура, растут объемы продажи мороженого. Две переменные положительно коррелированы, если изменение одной переменной вызывает изменение другой в том же направлении, то есть в направлении увеличения или уменьшения (например, взаимосвязь между ростом и весом человека). У более высоких людей больший вес (в среднем); низкорослые люди весят меньше. Корреляция отрицательна, если положительное изменение одной переменной обусловливает отрицательное изменение другой (например, связь между регулярным выполнением физических упражнений и весом человека).
В зависимостях такого рода интересно то, что не каждое наблюдение вписывается в соответствующую схему. Иногда низкорослые люди весят больше, чем высокие. Иногда те, кто вообще не занимается спортом, бывают гораздо стройнее, чем те, кто регулярно выполняет физические упражнения. Тем не менее существует отчетливо выраженная связь между ростом и весом человека, а также между весом и физическими нагрузками.
Если построить диаграмму разброса данных, отражающих рост и вес произвольной выборки взрослых американцев, то получится примерно такая картина:
Если бы нам нужно было построить диаграмму разброса для данных о выполнении физических упражнений (количество минут, затрачиваемых на них каждую неделю) и данных о весе человека, то можно было бы ожидать отрицательной корреляции, причем те, кто занимается спортом больше времени, будут весить меньше. Однако картина в виде совокупности точек, разбросанных по определенной площади, представляет собой несколько неуклюжий инструмент. (Если бы Netflix попыталась предлагать мне какие-то фильмы, продемонстрировав диаграмму разброса рейтингов для тысяч кинолент, выставленных миллионами кинозрителей, то я посчитал бы такую рекомендацию просто неудачной шуткой.) Эффективность корреляции как статистического инструмента заключается в том, что мы можем выразить связь между двумя переменными с помощью одной описательной статистики – коэффициента корреляции.