Статьи

Цифры в медицине

11.07.2017
В этой статье мы не будем обсуждать, как применять те или иные статистические методы. Попытаемся понять, как интерпретировать результаты исследований, представленные в различных статьях и публикациях, а также попробуем оценить корректность применения различных методов авторами исследований.
Чем больше накапливалось опыта и глобальней становилось медицинское сообщество, тем чаще возникали противоречия в имеющейся информации. Чтобы рассуждать более-менее объективно, требовались новые инструменты. Пожалуй, самым точным инструментом медицинских «измерений» стала медицинская статистика. Для чего же используется статистика? Во-первых, это описание полученных данных. Обычно это первый этап анализа, позволяющий понять структуру данных, выявить простые закономерности, найти какие-то возможные ошибки и спланировать дальнейший анализ. Следующим этапом становится непосредственно анализ, при помощи которого и проверяется гипотеза, поставленная в начале исследования. Для этого могут проводиться оценка достоверных различий между группами пациентов, поиск взаимосвязей между двумя переменными, формирование каких-либо групп пациентов на основе множества факторов или какие-либо другие аналитические методы. Третий «кит», на котором стоит медицинская статистика, — визуализация полученных данных: это всевозможные графики и диаграммы, при помощи которых в наглядном виде описываются полученные данные и выводы. В рамках нашего цикла статей мы рассмотрим все три элемента успешной статистики, но для начала выясним, что вообще подразумевается под «данными» и какие они бывают. Вообще, понятно, что это — некоторая информация, полученная об объекте или явлении. В медицине, конечно, чаще всего под объектом понимается пациент или здоровый доброволец. О каждом человеке можно узнать очень много разных вещей, например его рост, артериальное давление, почтовый индекс места работы или любимое блюдо. Практически любая такая характеристика может представлять интерес для ученого, и ее можно проанализировать. Ученые статистики назовут такие показатели «переменными». Если мы соберем все переменные для всех объектов в одну таблицу, то получится при- мерно так: Хотя мы и сказали раньше, что данные могут быть практически любыми, но в статистике они обычно выражаются цифрами. Так что слова, описывающие определенное свойство, приходится заменять на цифры-коды: «русый» станет «1», «брюнет» — «2» и так далее. Однако цифры тоже бывают разными. Во-первых, сразу понятно, что наши кодировки для цвета волос – не совсем «настоящие» цифры. Их совершенно нельзя сравнивать между собой по категориями больше или меньше, делить, умножать или возводить в квадрат (если вычесть из рыжего брюнета, русого никак не получится!). Такие переменные называются номинальными, потому что они — просто «имена» для категории, к которой относится объект.
Если наши категории можно расположить в каком-то порядке по возрастанию или убыванию, то получаются ординальные или порядковые переменные. Прекрасный при- мер – степени артериальной гипертензии (АГ). Понятно, что большее значение отражает большее артериальное давление (АД) у пациента, но, если сложить степени у 3 пациентов, мы получим совершенно бессмысленное число! Следующий тип – дискретные переменные. Это уже числа, отражающие количество чего-то, например приступов ишемии или метастазов у пациента. Их уже можно сложить или сравнить между собой, но они не могут быть дробными. Согласитесь, сложно иметь два с половиной инфаркта. И последние – непрерывные переменные. Такое название они носят из-за непрерывности шкалы измерения, то есть между любы- ми двумя числами мы можем найти хотя бы еще одно. Между температурой 36,9 и 37,0 градусов мы можем взять градусник поточнее и намерить у пациента 36,95 градусов. И это число будет иметь смысл.
Довольно легко понять, что мы можем преобразовывать данные, «спускаясь» по нашим типам переменных. Так 174/103 мм рт. ст. легко становятся III степенью АГ, а 3 инфаркта можно также легко превратить в просто «1», которая означает, что у пациента был инфаркт вообще. К сожалению, при этих преобразованиях мы теряем точность наших измерений и возможность «развернуть» этот процесс в обратную сторону. Однако часто высокая точность требует и высоких затрат сил на получение данных. Поэтому для достижения идеального баланса между задачами работы и ее стоимостью исследователям приходится выбирать между, например, измерением концентрации дигоксина в крови (какая, кстати, получится переменная?) и простым вопросом о том, принимает ли пациент вообще дигоксин (а это какая?). Теперь, понимая, какие встречаются переменные, давайте поговорим наконец о том, как мы можем их описать, чтобы читателю не приходилось рассматривать огромные таблицы, Например представленные на рисунке.
Сначала номинальные и порядковые переменные. Для них самый простой и очевидный способ – доли и проценты. Да, это просто отношение числа пациентов в одной категории ко всем пациентам. Но и тут есть важный момент: проценты всегда должны идти вместе с абсолютным числом пациентов в этой группе, как в примере No1. Потому что, к примеру, 45% могут означать как 9 пациентов из 20, так и 954 из 2120 и определить это без прямого указания можно, только внимательно читая текст статьи, что не очень хорошо характеризует ее качество.
Остальные инструменты описательной статистики используются в отношении численных переменных, то есть дискретных и непрерывных. Первое, что приходит на ум, – это среднее значение, то есть отношение суммы всех значений к их количеству. Оно, действительно, часто используется, но имеет свои ограничения. Но для того, чтобы понять их, давайте сначала рассмотрим «конкурентов» среднего. Во-первых, медиана. Чтобы узнать медиану, нужно взять все значения переменной, построить их по возрастанию и взять то, которое оказалось ровно в середине ряда. Если число значений нечетное, то не нужно вообще никаких сложений или вычитаний, а вот если четное, то считается среднее между двумя ближайшими к середине числами.
И 3-й способ – это мода. Или такое значение, которое встречается в выборке чаще всего. Кстати, мода не теряет смысла и в отношении переменных категорий, например самый часто встречающийся цвет волос. Кроме того, интересное свойство моды – возможность одновременного существования двух таких значений, если два разных значения встречаются одинаково часто и чаще, чем все остальные. Но о том, почему это важно, поговорим чуть позже. Теперь давайте попробуем понять, зачем нужно столько способов практически для одного и того же? Для этого возьмем 3 ряда разных переменных: вес пациентов терапевтического отделения, кг: 65, 72, 80, 83, 83, 87, 94, 103; зарплата сотрудников небольшого предприятия, тыс. рублей: 18, 21, 25, 25, 27,29, 33, 150 (да, владельца тоже включим);
– температура пациентов с сепсисом в от- делении гнойной реанимации, °С: 35,1; 35,7; 35,7; 36,0; 38,7; 39,4; 39,4; 40,1. Посчитаем наши параметры для всех трех выборок (рис. 3). Посмотрим сначала на пожилых пациентов терапевтического отделения. Для них все три наши показателя практически совпадают. Да и если посмотреть на сами данные, то понятно, что пациенты там «около 80», значит, все три показателя показывают в общем-то правдивую картину. Вторая история про зарплаты. Оказалось, что средняя зарплата – 41 тыс. рублей, но на деле никто из сотрудников такие деньги не получает. Самая большая зарплата очень сильно тянет одеяло на себя и смещает к себе среднее, лишая его реального смысла. Медиана и мода же, в свою очередь, практически не подвержены влиянию таких «выбросов» (это термин статистиков для очень больших или очень маленьких значений) и достаточно точно указывают на реальное положение дел в компании. В третьем же случае, что среднее, что медиана вообще не отражают реальное положение дел, попадая в тот диапазон температуры, которая вообще слабо соотносится с сепсисом. А реальные данные сконцентрированы вокруг 2 пиков, которые хорошо передаются модой. Здесь как раз очень полезно ее свойство иметь сразу нескольких значений. Из приведенных выше очень условных примеров сделаем выводы:
  • Среднее хорошо работает для «равномерных» выборок без выбросов и собранными «вокруг» одного значения.
  • Медиана справляется со значительным выбросами, но также теряет смысл, если выборка разделена на несколько значительных групп.
  • Мода справляется со всем этим, но у нее возникают проблемы с непрерывными переменными, где нет одного часто повторяющегося конкретного значения, и все они размазаны по какому-то диапазону.
В этот момент мы вплотную подошли к важному понятию – распределения, которое поможет нам формализовать наши выводы о среднем и медиане и позволит однозначно оценивать корректность их применения в разных случаях. Но это мы оставим для следующего выпуска, в котором рассмотрим первые графики – гистограммы, доверительные интервалы и квартили.
Подготовил Иван Царёв

НАШИ ПАРТНЕРЫ