Цифры врут. Как не дать статистике обмануть себя

Text
6
Kritiken
Leseprobe
Als gelesen kennzeichnen
Wie Sie das Buch nach dem Kauf lesen
Keine Zeit zum Lesen von Büchern?
Hörprobe anhören
Цифры врут. Как не дать статистике обмануть себя
Цифры врут. Как не дать статистике обмануть себя
− 20%
Profitieren Sie von einem Rabatt von 20 % auf E-Books und Hörbücher.
Kaufen Sie das Set für 7,12 5,70
Цифры врут. Как не дать статистике обмануть себя
Audio
Цифры врут. Как не дать статистике обмануть себя
Hörbuch
Wird gelesen Татьяна Фельгенгауэр
3,56
Mit Text synchronisiert
Mehr erfahren
Schriftart:Kleiner AaGrößer Aa

Глава 2
Отдельные наблюдения

В 2019 году сразу две газеты, Daily Mail и Mirror, написали о женщине, которая, узнав, что у нее терминальная стадия рака, прошла альтернативное лечение в мексиканской клинике. Ее терапия «включала гипербарическую оксигенацию, общую гипотермию, инфракрасное облучение, воздействие импульсного электромагнитного поля, кофейные клизмы, посещения сауны и внутривенное введение витамина С». И опухоль резко уменьшилась.

Мы предполагаем, что большинство читателей этой книги относятся к подобным историям со здоровым скептицизмом. Но этот случай – прекрасная отправная точка для понимания того, как числа могут вести к неверным выводам. На первый взгляд кажется, что здесь нет никаких чисел, однако одно неявно присутствует – единица. История одного человека служит основой для доказательства утверждения. Это пример того, что мы называем отдельным наблюдением (anecdotal evidence).

У таких доказательств плохая репутация, но назвать все такие рассуждения принципиально неверными нельзя. Как мы обычно решаем, где правда, а где ложь? Очень просто: проверяем утверждение сами или слушаем людей, проверивших его.

Если мы прикоснулись к горячей сковородке и обожглись, то мы, опираясь на этот единственный случай, приходим к выводу, что горячие сковородки обжигают и всегда будут обжигать и что их лучше не трогать. Более того: если кто-то скажет, что сковородка горячая и что мы обожжемся, если ее коснемся, мы легко в это поверим. Нас убеждает опыт других людей. В этом примере можно обойтись без всякого статистического анализа.

В жизни такой подход почти всегда срабатывает. Обучение на базе рассказа или личного опыта – когда человек делает вывод на основе отдельного наблюдения – довольно эффективно. Но почему? Почему единичное наблюдение тут годится, а в других случаях – нет?

Потому что еще одно прикосновение к горячей сковородке почти наверняка даст тот же результат. Можете трогать ее раз за разом – будьте уверены: вы каждый раз обожжетесь. Это нельзя доказать со стопроцентной уверенностью: возможно, на 15 363 205-й раз поверхность покажется холодной. Или на 25 226 968 547-й. Можно продолжать трогать сковородку до скончания века, чтобы убедиться – хотя вряд ли оно того стоит, – что она всегда обжигает. Но большинству людей достаточно один раз обжечься.

Есть и другие события, которые всегда происходят одинаково. Если отпустить что-то тяжелое, оно непременно упадет. Это неизменно, если вы находитесь на Земле. Как событие произошло в первый раз, так оно и будет происходить всегда. В статистике про такие события говорят, что они репрезентативны для распределения событий.

Отдельных случаев трудно избежать. Мы будем опираться на них на протяжении всей книги, показывая на конкретных примерах, какие ошибки делают СМИ. Надеемся, вы поверите, что они типичны и наглядно демонстрируют, что иной раз творится с числами.

Проблемы возникают, когда вы опираетесь на примеры в менее предсказуемых ситуациях, где распределение событий не так очевидно. Например, вы не сковородку трогаете, а гладите собаку, и она вас кусает. Разумно впредь проявлять большую осторожность, но не стоит считать, что, прикасаясь к собаке, вы обречены на укус. Или вы выпускаете из рук не что-то тяжелое, а воздушный шарик. Вы видите, как он поднимается и ветер сносит его на запад, но нельзя сделать вывод, что выпущенный из рук шарик всегда летит в этом направлении. Беда в том, что трудно определить, какие ситуации однотипны и предсказуемы (как случаи с горячей сковородой или брошенным камнем), а какие – нет (как с шариком).

Эта проблема характерна для медицины. Допустим, вас мучает головная боль – и вы принимаете какое-то лекарство, например парацетамол. Многим людям он помогает. Но заметной доле пациентов – нет. У каждого из них своя история, свой случай, когда лекарство не сработало, хотя в среднем оно и снижает боль. Ни один случай, ни несколько не дают полной картины.

А вот СМИ любят ссылаться на конкретные истории. Например: «Я вылечил хроническую боль в пояснице с помощью пластыря стоимостью в 19 фунтов, хотя врачи не хотели мне его прописывать», – цитировала Гари из Эссекса газета Mirror в марте 2019 года. Гари годами страдал от остеохондроза и был вынужден уйти на пенсию в 55. Он жил на чудовищной смеси болеутоляющих и противовоспалительных и тратил на нее тысячи фунтов в год. А потом стал применять пластырь ActiPatch, который «с помощью электромагнитных импульсов стимулирует нейромодуляцию нервов, помогая подавить болевые ощущения». Вскоре ему удалось вдвое снизить дозу болеутоляющих. Помог ли ему пластырь? Возможно. Но из самой истории этого узнать нельзя.

Согласно систематическому обзору, опубликованному в British Medical Journal в апреле 2010-го, в мире каждый десятый страдает от боли в пояснице (в одной Великобритании – это миллионы людей). Ощущения весьма неприятные, а врачи особо ничем, кроме болеутоляющих и упражнений, помочь не могут, поэтому пациенты нередко обращаются к альтернативной медицине, применяя пластырь ActiPatch или что-то аналогичное. Причем порой кому-то становится лучше независимо от того, лечится он или нет.

Так что довольно часто пациент обращается к новому нетрадиционному средству и при этом ему становится лучше. Но довольно часто эти события никак между собой не связаны. Поэтому отдельные случаи того, как кому-то помогло какое-то средство, могут оказаться мнимыми.

Ситуацию усугубляет то, что СМИ любят новости. Они старательно выискивают самые интересные, удивительные или трогательные – в общем, привлекающие внимание сообщения. Журналистов трудно в этом винить – не могут же они рассказывать о будничной жизни среднестатистического гражданина. Просто это означает, что удивительные истории чаще попадают в газеты, чем обычные.

Уточним: это необязательно относится к Гари с его пластырем. Если свидетельство неубедительно, это еще не значит, что вывод неверный. Возможно, пластырь действительно эффективен (есть некоторые свидетельства, что такие средства помогают, а американское Управление по санитарному надзору за качеством пищевых продуктов и медикаментов в 2020 году разрешило применять ActiPatch для лечения спины), и, возможно, Гари он помог. Просто его история не дает оснований для такого вывода. Если раньше мы не верили в лечебные свойства ActiPatch, то и теперь нет причины.

Неприятно, когда болит поясница, и это, конечно, накладывает на жизнь Гари жесткие ограничения. И если, прочтя его историю, товарищи Гари по несчастью станут использовать пластырь в надежде, что он поможет, в этом нет ничего плохого. Иногда даже наоборот: если лечение окажется успешным, снизит боль за счет эффекта плацебо или просто даст надежду на исцеление (хоть за это и заплатит система здравоохранения или сам пациент).

Иные истории звучат смешно. Например, в другой публикации газеты Mail в 2019 году рассказывается о шестерых излечившихся от псориаза. Они использовали гомеопатические средства, основанные на змеином яде, рвотных массах кита, протухшем мясе и «гное из уретры больного гонореей».

Порой о таких рецептах говорят, что «вреда-то нет». Но иногда – в начале главы мы рассказывали о женщине, лечившейся альтернативными средствами от рака, – все обстоит серьезнее. Уточним: нет никаких убедительных оснований считать, что гипербарическая оксигенация или кофейные клизмы помогают от онкологических заболеваний. Но есть все основания полагать, что многие отчаявшиеся онкологические больные – а их миллионы – готовы бороться с болезнью самыми экстремальными способами и что иногда таким больным становится лучше. Причем, как и в случае с Гари и его поясницей, существует огромная вероятность совпадения этих двух событий.

Возможно, что кофейные клизмы не принесли вреда женщине, лечившейся от рака с их помощью: если опухоль уменьшилась, это прекрасно независимо от того, помог ли ей кофе. И, возможно, альтернативные методы дали ей надежду. Но опасно, если человек откажется от обращения к доказательной медицине, прочитав в газете, как кому-то помогла терапия импульсным электромагнитным полем (что бы это ни значило!). Вот почему важно, чтобы мы – как общество – понимали роль опыта: когда на него можно опираться, а когда – нет. Это относится к отдельным случаям, но не только к ним, а вообще ко всему, изложенному в этой книге, когда числа становятся сложнее и в них все проще ошибиться.

Мы не утверждаем, что отдельные наблюдения бесполезны. В жизни мы постоянно (и весьма успешно!) ими пользуемся: это очень неплохой ресторан, вам понравится этот фильм, его новый альбом – полный отстой. Но когда мы узнаем о них из прессы, крайне высока вероятность случайного совпадения, поэтому их польза весьма сомнительна.

В следующей главе мы поговорим о том, что происходит, когда числа становятся немного больше, и почему это немного лучше, но лишь немного.

Глава 3
Размеры выборки

Легче ли поднимать тяжести, когда бранишься? Несомненно, если судить по статье из газеты The Guardian. И в это нетрудно поверить: кто из нас не ругался на чем свет стоит, пытаясь поднять по лестнице икеевский шкаф, опрометчиво собранный не там, где надо. Возможно, это и помогало.

В той статье ссылались на исследование, проведенное в Кильском университете. В предыдущей главе мы говорили о том, как могут вводить в заблуждение новости, основанные на отдельных случаях. Лучше опираться на научные работы, не так ли?

Отчасти. Но не все научные исследования устроены одинаково.

Если вас не убеждает опыт одного человека, то опыт скольких людей убедит? Жесткого правила тут нет. Представим: вы хотите что-то узнать – например, рост британских мужчин. Вы – инопланетянин, британцев в глаза не видели и не имеете о них ни малейшего представления. Может, их рост – всего несколько микронов, а может – со звездное скопление. Откуда вам знать?

Если выстроить по росту всех британских мужчин до единого и измерить их, то вы увидите полную картину: очень высоких и очень низких людей мало и чаще встречаются люди среднего роста. Но чтобы узнать это, придется изрядно постараться, и даже размахивание гауссовым бластером не поможет. Вместо этого можно ограничиться выборкой.[5]

 

Выборка – это небольшая часть чего-то, отражающая, как вы надеетесь, часть целого. Бесплатная выпечка, выставленная у местной булочной, дает представление обо всем ассортименте; ознакомительный фрагмент электронной книги дает представление о книге в целом. Статистическая выборка делает то же самое.

И вот вы начинаете измерять рост случайных прохожих, создавая выборку населения. Если не повезет, то первым вам попадется человек ростом аж в 2 м 13 см. Это даст вам хоть какую-то информацию: гипотеза о том, что британские мужчины ростом со звездные скопления, становится гораздо менее правдоподобной. Но если вы сделаете вывод, у всех них рост 2 м 13 см, то сильно ошибетесь. (Еще одна иллюстрация того, что отдельные случаи не могут служить доказательством.)

Все это вы знаете, поэтому продолжаете измерять прохожих. Вы чертите простой график: каждый раз, когда вам встречается мужчина ростом 1 м 56 см, вы добавляете штрих в колонку «1 м 56 см»; если же рост прохожего составляет 1 м 85 см, вы добавляете штрих в колонку «1 м 85 см», и так далее.

Вы заметите, что по мере увеличения числа измерений график приобретает определенную форму. У вас окажется много отметок возле середины и меньше по краям. Получится что-то вроде арки старинного каменного моста. Самое большое число отметок окажется возле значения 1 м 78 см, почти столько же – около 1 м 73 см и 1 м 85 см, и совсем мало – по краям. Это будет кривая, напоминающая нормальное распределение – знаменитый «колокол», – с осью симметрии на значении роста среднего британского мужчины.[6]

Полностью колокол сформируется, когда вы измерите рост тысяч людей, а поначалу он будет неровным. Если не повезет и вам попадется несколько слишком высоких или слишком низких людей, то кривая выйдет искаженной. Но если вы измеряете рост действительно случайных прохожих, то в среднем чем больше людей вы измерите, тем ближе окажетесь к среднему значению всего населения. (Если ваша выборка не случайна, то возникнут другие проблемы – см. главу 4 «Смещенные выборки».)


Необходимо также учесть, насколько рост людей отклоняется от среднего. Предположим, что средний рост составляет 1 м 78 см. Если почти все люди такого роста и лишь некоторые – 1 м 83 см и 1 м 73 см, то ваш колокол окажется высоким и узким. Если же многие люди ростом 1 м 47 см а многие – 2 м 8 см и любое значение из этого промежутка тоже встречается часто, то колокол будет более широким и плоским. Такую вариативность данных описывает переменная, называемая дисперсией (см. график на следующей странице).

Если дисперсия невелика, то вероятность встретить значения, сильно отличающиеся от среднего, мала, и наоборот.


Эту врезку читать необязательно, но, если вы хотите узнать, как работают размер выборки и нормальное распределение, не пропускайте ее.

Роль выборки удобно демонстрировать на примере игры в кости. Она сводится к тому, что бросаются два кубика, а очки на них суммируются.

Таким образом можно получить 11 различных результатов – от 2 до 12. Но вероятности их выпадения разные.

Представим, что мы сначала бросаем одну кость, а потом – другую. Если на первой выпало 1, то, что бы ни было на второй, 12 в сумме не получить. А если выпало не 1, то в сумме не выйдет 2. Число X на первой кости ограничивает сумму значениями от X + 1 до X + 6.

При этом сумму 7 можно получить всегда, независимо от того, что выпало при первом броске. Если 6, то 7 выйдет, если на второй кости выпала единица. Если на первой выпало 2, а на второй 5, в сумме получится 7. И так далее, вплоть до 6 на первой кости и 1 на второй. Поэтому независимо от значения первой кости вы получите в сумме 7 с вероятностью 1/6.

Кости могут выпасть в общей сложности 36 комбинациями. В шести случаях сумма равна 7, так что вероятность получить 7 равняется 6/36, или 1/6. В пяти случаях сумма равна 8, и в пяти – 6. В четырех – 9 и в четырех – 5. И так далее. А вот 2 можно получить только одним способом, и 12 – тоже одним.

Это можно доказать математически, как мы только что сделали, но в этом можно убедиться и на практике, бросая кости. Бросив их 36 раз, вы вряд ли получите в точности шесть раз 7, пять – 6 и т. п. Но если сделать это миллион раз, то сумма 7 выпадет практически в точности в 1/6 части случаев, а 2 – один раз из 36.

Предположим, вы хотите эмпирически определить, как часто на двух костях в сумме выпадает 7. Основной принцип тут такой: чем больше раз вы бросите кости, тем больше размер выборки и тем точнее окажется ваш прогноз, сколько раз сумма будет равна 7.

Если бросить кости 20 раз, то с вероятностью 95 % количество 7 будет в интервале от 1 до 6. Это 6 возможных вариантов – более 25 % от общего числа вариантов.

Если бросить кости 100 раз, то с вероятностью 95 % количество семерок будет в интервале от 11 до 25: всего 15 % от возможного числа вариантов.

Если бросить кости 1000 раз, то с вероятностью 95 % количество семерок будет в интервале от 140 до 190. Число вариантов сузилось до 4,6 % от общего числа.

То же самое произойдет для любой другой суммы: число двоек будет все больше приближаться к 1/36, как и две шестерки; такая закономерность сохранится и для всех промежуточных чисел.

Включая в свою выборку все большее число бросков, вы будете все ближе к «правильному» распределению.

* Тех, кто дочитал до этого места, ждет небольшой приз. Вас могут позабавить проблемы, возникшие у Джо Уикса (этот доброхот помогал Великобритании пережить локдаун физкультурными занятиями на ютубе, которые он проводил ежедневно из своей гостиной). Он пытался внести в выпуски элемент случайности – присвоил упражнениям номера от 2 до 12 и бросал кости, но был неприятно удивлен, что упражнение № 7 («бёрпи») приходилось делать намного чаще, чем № 2 (прыжок звездой). Поняв свою ошибку, Уикс заменил кости рулеткой.

С ростом мужчин у вас получилось простое распределение вокруг среднего значения. Если вы действительно выбираете мужчин случайным образом, то чем больше вы их измерите, тем больше ваша выборка будет напоминать популяцию в целом, точно так же как в примере с костями из врезки.

Но, предположим, вы хотите выяснить что-то другое – например, выздоравливают ли пациенты, принимающие определенное лекарство, быстрее не принимающих. В этом случае вы измеряете не одну величину, а две: насколько быстро выздоравливают те, кто принимает лекарство, и те, кто его не принимает.

Вы хотите узнать, есть ли различия между этими группами. Однако тут, как и в случае с измерением роста, бывают случайные отклонения. Если взять двух пациентов и одному давать лекарство, а другому – нет, то принимающий лекарство может выздороветь быстрее просто за счет более крепкого здоровья.

Поэтому вы берете целый коллектив больных и случайным образом разделяете его на две группы: одной даете лекарство, а другой – плацебо. Затем вычисляете среднее время, за которое идет на поправку каждая из них, точно так же как вы вычисляли средний рост мужчин. По сути, вы делаете то же самое: изучаете выборку из одной популяции (тех, кто принимал лекарство) и другой (тех, кто не принимал). Если окажется, что первая в среднем выздоравливает быстрее, то логично предположить, что лекарство ускоряет выздоровление.

Беда в том, что здесь, как и при измерении роста, притаилась опасность: в первой группе случайно окажутся все более здоровые люди или по крайней мере значительная их часть. Тогда создастся впечатление, что лекарство ускоряет выздоровление, хотя на самом деле эти пациенты и так поправились бы быстрее.

Конечно, чем больше будет ваша выборка, тем меньше вероятность, что такие случайные вариации повлияют на результат. Вопрос: сколько нужно изучить пациентов для надежной оценки? Ответ: бывает по-разному.

Это зависит от множества факторов, но один из самых главных – величина изучаемого эффекта. Чем она меньше, тем больше людей нужно обследовать – по-научному, тем большая «статистическая мощность» требуется. Если вдуматься, это совершенно очевидно. Для ответа на вопрос «Вреден ли для здоровья выстрел в голову?» не нужна выборка из десяти тысяч человек.

Возвращаясь к исследованию о ругани: можно предположить, что если ругань и придает сил, то лишь самую малость. Иначе мы бы это заметили, а финал Олимпийских игр по тяжелой атлетике приходилось бы транслировать в вечернее время (когда в эфире допустимы бранные выражения).

То исследование включало два эксперимента по измерению силы. В одном было 52 участника, а во втором – 29. Стоит отметить, что схема этих экспериментов слегка отличалась от описанной выше. Некоторых людей просили поднимать тяжести и ругаться, а других – выкрикивать небранное слово, как в описанном нами исследовании про лекарство. Потом группы поменяли местами: тех, кто не бранился, просили браниться, и наоборот. В обоих случаях измеряли силу в обеих группах. Такие исследования называются внутрисубъектными – они позволяют снизить проблемы с небольшими выборками.

Как уже говорилось, нужный размер выборки зависит от разных факторов, включая величину изучаемого эффекта. И существуют статистические хитрости, позволяющие снизить вероятность получения случайного результата.

Однако опыт показывает, что следует с осторожностью относиться к исследованиям с менее чем сотней участников, особенно если получаются какие-то удивительные или малозаметные результаты. По мере роста числа участников исследования – при прочих равных – доверие к его результатам повышается. Не исключено, что, бранясь, становишься сильнее, но нас бы это до чертиков удивило.

Опять же – это все развлечение и игра: кому реально важно знать, прибавляет ли ругань сил? Если так и есть, то это удивительный, но вряд ли жизненно важный факт.

Во многих других случаях дело обстоит иначе. В первой половине 2020-го, когда мир судорожно искал средство – какое угодно – для лечения или профилактики ковида, научные статьи и препринты (ранние версии научных статей, еще не одобренные рецензентами) заполонили интернет. В одной из них рассматривалось влияние на коронавирус антималярийного препарата гидроксихлорохина. Как и в случае исследования брани, оно было контролируемым (хотя и не рандомизированным). Оно привлекло такое внимание, что некий Дональд Трамп упомянул о нем в своем твите. В исследовании утверждалось, что «лечение гидроксихлорохином достоверно приводило к снижению вирусной нагрузки или полной элиминации вируса COVID-19 у пациентов с коронавирусной инфекцией».

5Гаусс-бластер – мощное оружие в игре Warhammer. – Прим. ред.
6Нормальное распределение, или распределение Гаусса – распределение вероятностей для случайно величины, где наиболее частотно среднее значение; имеет колоколообразную кривую. – Прим. ред.