Статьи
Разнообразие дизайнов
В № 4 (10) «Современной Кардиологии» мы начали разбираться с различными принципами дизайна клинических исследований и уже поговорили об экспериментах и наблюдениях, проспективном и ретроспективном «направлении» исследования, а также контролируемых исследованиях — с плацебо или стандартной терапией. В этот раз мы продолжим разговор о характеристиках исследований и обсудим, как информация о дизайне исследования может влиять на уверенность читателя в полученных результатах.
Напомним, что в планировании нашего гипотетического исследования, проверяющего эффект статина, мы остановились на контролируемом дизайне, для которого нам потребуются две группы пациентов: получающие непосредственно изучаемое лекарство (экспериментальная группа) и получающие стандартную терапию для сравнения (контрольная группа). Однако тут появляется новая проблема — нужно каким- то образом решать, в какую из этих групп попадет каждый следующий пациент. При этом мы хотим минимизировать влияние на наши результаты всех возможных факторов, кроме изучаемого препарата. Возьмем для примера возраст: если в одну группу мы наберем только молодых пациентов, а во вторую — более возрастных, то сравнивать полученные результаты будет довольно сложно. Ведь весьма проблематично будет отличить эффект лекарства от того, что молодые пациенты лучше отвечают даже на неэффективное лечение.
В качестве решения мы могли бы внимательно оценивать каждого пациента и назначать ему группу таким образом, чтобы не нарушить равенства возрастов в группах, но с увеличением числа факторов и числа пациентов сложность такого распределения возрастает очень быстро, а значит, хорошо было бы придумать какой-то более простой способ.
Для этого нам потребуется рандомизация, то есть случайное распределение пациентов по группам. Принцип рандомизации интуитивно понятен: если мы возьмем однородную, достаточно большую группу пациентов (а выборка пациентов в исследовании должна быть однородна, иначе стоит еще раз задуматься, кого мы исследуем!) и случайным, не связанным с характеристиками пациента, образом разделим ее на две группы, то каждая из групп будет в достаточной степени похожа и на «предшественника», и на вторую группу.
Однако добиться абсолютной случайности может оказаться совсем непросто, а некорректный способ чреват неприятными ошибками. Например, можно попытаться рандомизировать пациентов «по дням», направляя всех пришедших на прием в понедельник в одну группу, а во вторник — в другую. На первый взгляд кажется, что день приема пациента никак не влияет на его состояние. Но после окончания исследования может выясниться, что в понедельник на прием приходили работники соседнего предприятия на профилактический осмотр, и вместо разницы между двумя лекарствами мы изучили разницу между трудоспособным населением и пенсионерами, которые приходили со вторника по пятницу. Совсем не то, что мы хотели!
Чтобы избежать ошибок рандомизации, можно использовать и обычное подбрасывание монетки (орел или решка), но этот метод все-таки «оператор-зависимый» и к тому же не лишен недостатков. Так, на 100 бросков шанс получить ровно 50 «орлов» и 50 «решек» не такой уж и большой (порядка 10 %!), а значит, наши группы будут различаться по числу пациентов, что, конечно, не очень удобно.
Чтобы решить эту проблему, можно, например, рандомизировать пациентов в небольшие группы, допустим, 5 — с плацебо и 5 — с препаратом, при этом «заполняя» их полностью и потом «добавляя» к основной группе. То есть, если среди первых 7 пациентов 5 уже попали в группу плацебо, оставшиеся 3 гарантированно получат экспериментальный препарат. В следующей группе методика повторяется, и в итоге мы получим различие в общем числе пациентов между группами не более 5 человек и при этом сохраним достаточный уровень рандомизации, поскольку все еще никак не зависим от характеристик пациента.
Все эти детали делают процесс рандомизации чуть сложнее, чем он кажется на первый взгляд. Поэтому в крупных, а особенно многоцентровых исследованиях, где разные пациенты приходят ко многим исследователям одновременно, обычно используются отдельные компьютерные программы, централизованно создающие «случайность» и определяющие, в какую группу будет распределен конкретный пациент.
Кроме того, с помощью компьютеров можно попытаться реализовать и алгоритмы, «выравнивающие» группы и реализующие то, что мы обсуждали для возраста чуть выше. Впрочем, они все еще достаточно сложны, и классическим вариантом считается именно рандомизация, помогающая получить максимально равномерные группы по исходным параметрам, например сопутствующим заболеваниям или индексу массы тела. Важно также понимать, что рандомизация не спасает, если пациентов слишком мало для нашего исследования — в такой ситуации отдельные «экстремальные» наблюдения будут слишком сильно сдвигать картину относительно общего уровня, как это было в нашей истории про средние зарплаты.
Теперь мы составили две рандомизированные группы, получающие разные препараты. Но все наши усилия по выявлению реального эффекта препарата могут оказаться бессмысленными, если пациент заранее будет знать, в какую группу он попал. Так, у пациента, который знает, что его лечат плацебо, может заметно снизиться комплаентность или он вообще может выйти из исследования. Это уже не говоря о том, что таким образом мы «выключим» эффект плацебо в данной группе, а в экспериментальной он останется, потому что там, с точки зрения пациента, все-таки лечат самым современным препаратом!
Разумеется, это опять повлияет на конечный результат нашей работы. Чтобы избежать этого, в исследованиях используется ослепление. Самый простой вариант — пациента перед включением в исследование предупреждают, что он не будет знать, чем точно он лечится: старым или новым препаратом. Таким образом, мы опять уравниваем обе группы, на этот раз в знаниях о своем лечении.
Однако не только знания пациентов могут повлиять на исследование, но и сам исследователь может влиять на результаты лечения умышленно или нет. Поэтому наиболее правильная тактика — «ослеплять» и исследователей, которые работают с пациентами, таким образом получается уже «двойное слепое исследование». И даже больше. Статистик, который будет обрабатывать данные, в идеале тоже не должен знать, какая группа пациентов была экспериментальной, чтобы гарантировать его непредвзятость. И вот мы уже получаем «тройное слепое исследование».
В итоге нашего короткого знакомства с разными деталями дизайна исследований мы наконец можем расшифровать дизайн, с которого и начали — проспективное контролируемое рандомизированное тройное ослепленное. Получается, что в данном исследовании мы будем наблюдать за пациентами в течение некоторого времени, перед этим они будут случайным образом распределены между экспериментальной и контрольной группами, а контрольная группа, скорее всего, ни пациент, ни врач-исследователь, ни биостатистик не будет знать, какой же препарат получал пациент. Такой дизайн считается практически идеальным для подтверждения эффективности новых препаратов и отлично подойдет для нашего исследования со статином.
А теперь поговорим, как же это знание поможет нам грамотнее читать статьи. Как вы могли заметить, все усложнения дизайна вводились с целью уточнить собственные результаты и увеличить свою уверенность в них. А значит, и результатам рандомизированного исследования, которое проводили самостоятельно или о котором узнали из статьи или на конференции, стоит доверять несколько больше, чем ретроспективного наблюдательного исследования. Даже если авторы последнего приложили максимум усилий, шансы на появление в их данных систематической ошибки, к сожалению, заметно выше. Формализуется «качество» результатов разных дизайнов в виде так называемой «пирамиды доказательности».
В основании ее лежат самые простые в «производстве» доказательства — экспертные мнения и разнообразные наблюдательные исследования. Ценность же таких доказательств для принятия клинического решения относительно невелика. А на верхушке пирамиды — крайне трудоемкие рандомизированные исследования, с преимуществами которых мы познакомились выше, и метаанализы вместе с систематическими обзорами. Последние являются способом объективной оценки одновременно множества результатов разных исследований и формирования одного ответа на поставленный вопрос. будет получать некоторую базовую терапию. При этом ни пациент, ни врач-исследователь, ни биостатистик не будет знать, какой же препарат получал пациент. Такой дизайн считается практически идеальным для подтверждения эффективности новых препаратов и отлично подойдет для нашего исследования со статином.
А теперь поговорим, как же это знание поможет нам грамотнее читать статьи. Как вы могли заметить, все усложнения дизайна вводились с целью уточнить собственные результаты и увеличить свою уверенность в них. А значит, и результатам рандомизированного исследования, которое проводили самостоятельно или о котором узнали из статьи или на конференции, стоит доверять несколько больше, чем ретроспективного наблюдательного исследования. Даже если авторы последнего приложили максимум усилий, шансы на появление в их данных систематической ошибки, к сожалению, заметно выше. Формализуется «качество» результатов разных дизайнов в виде так называемой «пирамиды доказательности».
В основании ее лежат самые простые в «производстве» доказательства — экспертные мнения и разнообразные наблюдательные исследования. Ценность же таких доказательств для принятия клинического решения относительно невелика. А на верхушке пирамиды — крайне трудоемкие рандомизированные исследования, с преимуществами которых мы познакомились выше, и метаанализы вместе с систематическими обзорами. Последние являются способом объективной оценки одновременно множества результатов разных исследований и формирования одного ответа на поставленный вопрос.
Впрочем, подробнее мы будем рассматривать их в следующих выпусках. В заключение надо отдельно отметить, что «пирамида» — все же не строгое правило, а, скорее, общее руководство к действию. Конечно, если перед вами ретроспективное исследование с сотнями тысяч включенных пациентов, использовавшее данные тысяч госпиталей в нескольких странах, то вряд ли стоит отказываться от его результатов в пользу рандомизированного исследования, но проведенного всего лишь на нескольких десятках пациентов. Но при прочих равных знание о том, какой дизайн лучше минимизирует ошибки, необходимо для критической оценки любого исследования.
Иван Царев