×
Traktatov.net » Голая статистика. Самая интересная книга о самой скучной науке » Читать онлайн
Страница 158 из 192 Настройки
. Электроприборы для этого не предназначены. Если бы регрессионный анализ снабжался подобным предостережением, то оно должно было бы гласить: «Не пользоваться, когда между анализируемыми переменными существуют нелинейные зависимости». Запомните: коэффициент регрессии описывает степень наклона «линии наилучшего приближения» для рассматриваемых вами данных; непрямая линия будет характеризоваться разными степенями наклона в разных точках. Рассмотрим, например, следующую гипотетическую связь между числом уроков игры в гольф, которые я беру в течение месяца (объясняющая переменная), и моим средним результатом для восемнадцатилункового раунда за тот же месяц (зависимая переменная). Как нетрудно заметить из приведенной ниже диаграммы разброса данных, в этом случае отсутствует устойчивая линейная зависимость.



Итак, мы видим некую картину, которую невозможно описать с помощью одной прямой линии. Первые несколько уроков игры в гольф, похоже, привели к быстрому улучшению моих показателей (количество очков уменьшилось – в гольфе это считается положительным результатом). На этом отрезке времени наблюдается отрицательная зависимость между уроками и набранным мною количеством очков; наклон линии отрицательный. Чем больше уроков, тем меньше очков.

Но когда я начинаю тратить на уроки игры в гольф от 200 до 300 долларов в месяц, это, по-видимому, не оказывает на мои результаты вообще никакого влияния. На данном отрезке времени не наблюдается какой-либо четкой взаимосвязи между дополнительными уроками и моими результатами; наклон линии – нулевой.

Наконец наступает момент, когда уроки становятся контрпродуктивными. Если сумма, потраченная на уроки игры в гольф, достигает 300 долларов в месяц, дополнительные уроки ассоциируются с большим количеством набранных мною очков; на этом отрезке времени наблюдается положительный наклон линии. (Ниже в этой главе мы обсудим вероятность того, что плохие результаты игры в гольф могут стимулировать брать дополнительные уроки, а не наоборот.)

Самое важное здесь то, что с помощью единственного коэффициента регрессии мы не можем точно выразить зависимость между уроками и результатами. Наилучшей интерпретацией описанной выше картины будет то, что уроки игры в гольф характеризуются несколькими линейными связями с моими результатами. Вы можете видеть это, а пакет статистического программного обеспечения – нет. Если вы введете эти данные в уравнение регрессии, то компьютер выдаст вам единственный коэффициент. И он не будет точно отражать истинную взаимосвязь между интересующими нас переменными. Полученные результаты будут представлять собой статистический эквивалент использования фена для волос во время принятия ванны.

Регрессионный анализ предназначен для использования в случае линейной зависимости между переменными[68]. В солидных учебниках по статистике указаны также другие базовые условия его применения. Как и при использовании любого другого инструмента, чем больше вы отклоняетесь от заранее оговоренных условий его применения, тем менее эффективным – и даже потенциально опасным – он становится.