×
Traktatov.net » Голая статистика. Самая интересная книга о самой скучной науке » Читать онлайн
Страница 48 из 192 Настройки

Коэффициент корреляции обладает двумя чрезвычайно привлекательными характеристиками. Во-первых, в силу причин математического характера, которые мы обсудим в приложении, он представляет собой число в диапазоне от −1 до 1. Корреляция, равная 1 (иногда ее называют идеальной корреляцией), означает, что каждому изменению одной переменной соответствует эквивалентное изменение другой переменной в том же направлении.

Корреляция, равная –1 (иногда ее называют идеальной отрицательной корреляцией), означает, что каждому изменению одной переменной соответствует эквивалентное изменение другой переменной в противоположном направлении.

Чем ближе корреляция к 1 или –1, тем сильнее связь между переменными. Нулевая (или близкая к 0) корреляция говорит об отсутствии значимой связи между двумя переменными (например между результатом экзамена по математике и размером обуви экзаменуемого).

Второй привлекательной особенностью коэффициента корреляции является то, что с ним не связаны никакие единицы измерения. Мы можем рассчитать корреляцию между ростом и весом, несмотря на то что рост измеряется в дюймах, а вес – в фунтах. Мы можем даже вычислить корреляцию между количеством телевизоров, имеющихся дома у учеников, и результатами их экзаменов по математике (я почему-то уверен, что она окажется положительной). (Несколько ниже я остановлюсь подробнее на данной связи.) Коэффициент корреляции буквально творит чудеса: он сжимает сложное сочетание данных, измеряемых в разных единицах (наподобие наших диаграмм разброса роста и веса), в единственную элегантную описательную статистику.

Как это удается?

Как обычно, я привожу самую распространенную формулу для определения коэффициента корреляции в приложении, находящемся в конце этой главы. Это не та статистика, которую можно вычислить вручную. (После того как вы введете соответствующие данные, базовый программный пакет, например Microsoft Excel, рассчитает корреляцию между двумя соответствующими переменными.) Тем не менее на интуитивном уровне понять эту формулу несложно. Формула для вычисления коэффициента корреляции выполняет следующие операции:

1. Вычисляет среднее значение и стандатное (среднеквадратическое) отклонение для обеих переменных. Если вернуться к примеру с ростом и весом, то мы бы узнали средний рост людей в выборке, средний вес людей в той же выборке и стандартное отклонение для роста и веса.

2. Преобразует все данные таким образом, чтобы каждое наблюдение было представлено его расстоянием (в стандартных отклонениях) от среднего значения. Верьте мне, это совсем не сложно. Допустим, средний рост в выборке равняется 66 дюймам (при стандартном отклонении в 5 дюймов), а средний вес – 177 фунтов (при стандартном отклонении в 10 фунтов). Теперь предположим, что ваш рост – 72 дюйма, а вес – 168 фунтов. Мы можем также сказать, что ваш рост составляет 1,2 стандартного отклонения сверх среднего роста [(72 ‒ 66)/5) = 1,2] и 0,9 стандартного отклонения ниже среднего веса, или –0,9 применительно к нашей формуле [(168 ‒ 177)/10 = –0,9].