Разумеется, череда следующих друг за другом выпаданий орлов – чистая случайность: студенты, присутствовавшие в аудитории, были свидетелями происходящего. Однако полученный результат мог по-разному интерпретироваться в научном контексте. Вероятность пятикратного (подряд) выпадания орлов равняется 1/32, или 0,03. Это существенно ниже порога 0,05, который мы обычно используем, чтобы отвергнуть основную гипотезу. Наша нулевая гипотеза в данном случае заключается в том, что этот студент не обладает особым талантом подбрасывать монетку. Тем не менее удачная череда выпаданий орлов (которая обязательно произойдет по крайней мере у одного студента, если этот эксперимент будет проводиться с достаточно большим количеством участников) позволяет нам отклонить нулевую гипотезу и принять альтернативную гипотезу, утверждающую, что данный студент обладает особым талантом подбрасывать монетку так, чтобы каждый раз выпадал орел. После того как он достиг этого впечатляющего результата, мы можем подвергнуть его более детальному изучению в надежде выявить причины столь блестящих достижений: методика подбрасывания монетки, особая физическая подготовка, умение полностью сконцентрироваться на монетке, пока она вращается в воздухе, и т. п. Все это совершеннейшая чепуха!
Подобное явление способно расстроить даже безупречно организованное исследование. Считается, что нулевую гипотезу следует отвергнуть, когда мы наблюдаем нечто, что должно было бы произойти по чистой случайности не чаще, чем в 1 случае из 20, если бы наша основная гипотеза была верна. Разумеется, если мы проведем 20 исследований или включим в одно уравнение регрессии 20 лишних переменных, то в среднем получим один ложный статистически значимый результат. Журнал The New York Times блестяще выразил это противоречие, процитировав Ричарда Пето, медицинского статистика и эпидемиолога: «Эпидемиология так восхитительна и позволяет получить столь важные представления о жизни и смерти человека! Удручает лишь невероятное количество никому не нужных, бестолковых публикаций»{82}.
Даже к результатам клинических испытаний, которые обычно представляют собой статистические эксперименты и, следовательно, являются «золотым стандартом» медицинских исследований, следует относиться с изрядной долей скептицизма. В 2011 году газета The Wall Street Journal разместила на первой странице материал, который охарактеризовала как один из «грязных маленьких секретов» медицинских исследований: «Большинство результатов, в том числе и публикуемых в солидных научных периодических изданиях, рецензируемых коллегами авторов статей, невозможно воспроизвести повторно»{83}. (Речь идет о публикациях, предварительно проверяемых с точки зрения их методологической надежности другими экспертами в той же области; лишь после такой проверки материал отправляется в печать. Такие публикации принято считать заслуживающими особого доверия с научной точки зрения.) Одна из причин этого «грязного маленького секрета» – систематическая ошибка позитивной публикации, описанная в главе 7. Если исследователи и медицинские журналы склонны обращать внимание на позитивные результаты и игнорировать негативные, то они вполне могут опубликовать итоги исследования, свидетельствующие об эффективности некоего лекарства, и проигнорировать девятнадцать других исследований, доказывающих его бесполезность. Некоторые клинические испытания могут также основываться на небольших выборках (что бывает обусловлено объективными факторами, например редко встречающейся болезнью), что повышает вероятность того, что случайное отклонение в данных привлечет к себе больше внимания, чем оно того заслуживает. Самое главное – у исследователей может быть предубеждение (осознаваемое или нет), вызванное или непоколебимой уверенностью в чем-либо, или пониманием того, что позитивный результат будет способствовать их научной карьере. (Никто еще не разбогател и не стал знаменитым, доказав, что то или иное лекарство не излечивает от рака.)