×
Traktatov.net » Голая статистика. Самая интересная книга о самой скучной науке » Читать онлайн
Страница 156 из 192 Настройки
-распределения, – это основные вероятности для оценивания наблюдаемых исходов. Чем «толще» хвост у конкретного распределения вероятностей (например, t-распределение для восьми степеней свободы), тем больший разброс следует ожидать в наблюдаемых данных и, следовательно, тем меньше уверенность в правильности отказа от нулевой гипотезы.

Допустим, мы решаем уравнение регрессии и, согласно нулевой гипотезе, коэффициент при какой-то конкретной переменной равняется нулю. После того как мы получим результаты вычислений, мы могли бы рассчитать t-статистику, которая представляет собой отношение наблюдаемого коэффициента к стандартной ошибке для этого коэффициента[66]. Эта t-статистика затем оценивается с точки зрения величины выборки данных, для которой подходит t-распределение (поскольку именно это в значительной мере определяет число степеней свободы). Когда t-статистика достаточно велика, то есть наблюдаемый коэффициент далек от того, что предсказывает нулевая гипотеза, мы можем отвергнуть нулевую гипотезу на некотором уровне статистической значимости. Опять-таки это тот же самый базовый процесс статистического вывода, с которым мы неоднократно сталкивались в этой книге.

Чем меньше степеней свободы (и, следовательно, чем «толще» хвосты у соответствующего t-распределения), тем больше должна быть t-статистика, чтобы мы могли отвергнуть нулевую гипотезу на некотором заданном уровне статистической значимости. Если бы в описанном выше гипотетическом примере регрессии было четыре степени свободы, то нам понадобилось бы, чтобы t-статистика была не менее 2,13: только в этом случае мы могли бы отвергнуть нулевую гипотезу на доверительном уровне 0,05 (при использовании одностороннего критерия).

Если бы у нас было 20 000 степеней свободы (что вполне позволяет использовать нормальное распределение), то для того чтобы отвергнуть нулевую гипотезу на доверительном уровне 0,05 (при использовании того же одностороннего критерия), необходимо, чтобы t-статистика равнялась всего 1,65.

Уравнение регрессии для веса


12. Типичные регрессионные ошибки

Важное предупреждение

При проведении исследований, предполагающих выполнение регрессионного анализа, вы должны помнить одну очень важную вещь: постарайтесь никого не убить. Можете даже приклеить скотчем к монитору своего компьютера листочек с надписью: «Твои исследования не должны убивать людей». Дело в том, что подчас даже самые умные люди непреднамеренно нарушают это важное правило.

Начиная с 1990-х годов в системе здравоохранения возобладала концепция, согласно которой пожилые женщины должны принимать эстрогенные добавки, чтобы защититься от сердечно-сосудистых заболеваний, остеопороза и прочих недугов, связанных с менопаузой{77}. К 2001 году эстрогенные добавки были предписаны примерно 15 миллионам женщин в надежде, что это снизит риск развития перечисленных заболеваний. На чем основывалась эта надежда? На проводившихся в то время исследованиях – с применением базовой методологии, описанной в предыдущей главе, – согласно которым прием эстрогенных добавок считался разумной медицинской стратегией. В частности, повторное исследование 122 000 женщин (так называемое Nurses’ Health Study) продемонстрировало наличие отрицательной зависимости между приемом эстрогенных добавок и сердечными приступами. Риск возникновения последних у женщин, принимающих эстроген, составлял примерно одну треть от соответствующего риска у женщин, которые его не принимали. Исследование проводилось, конечно, не парой подростков, использующих отцовский компьютер для просмотра порнофильмов и попутного решения уравнений регрессии, а Гарвардской медицинской школой и Гарвардской школой общественного здравоохранения.