Публикации

    Важное на форуме

Длительность ПДА у онкологических больных

Гипернатриемия

Летальный исход как реакция на лидокаин

Токсический эффект от передозировки бупивакаина


 
 

<<< вернуться на главную страницу раздела

Расчет и интерпретация относительного риска и других параметров, полученных из четырехпольной таблицы частот

Г. П. ТИХОВА

Республиканский перинатальный центр, Петрозаводск, Республика Карелия

Достаточно часто в медицине возникают задачи, когда необходимо выяснить насколько сильно наличие или отсутствие какого-либо свойства или события влияет на частоту возникновения заболевания (осложнения, того или иного исхода и т.д.). Для решения подобных задач в клинической эпидемиологии разработан достаточно четкий алгоритм, позволяющий сформулировать задачу в терминах статистической гипотезы и затем проверить ее с помощью статистических методов. Поскольку изложение теоретической основы метода можно найти во многих книгах и сайтах, посвященных статистике и клинической эпидемиологии, мы не будем на этом останавливаться, а разберем на конкретном примере последовательность шагов при решении конкретной задачи подобного рода.

Допустим, в ходе наблюдения за беременными, страдающими преэклапсией (эклампсией) было отмечено, что на ранних сроках беременности выраженное ожирение у них регистрировалось чаще, чем в целом в популяции. Возможно, что это ошибка смещения очень бдительного специалиста, но поскольку это осложнение беременности слишком грозно, чтобы пренебрегать любыми возможностями предсказать и предотвратить его, все-таки необходимо проверить является ли выраженное ожирение фактором риска возникновения преэклампсии, и если да, то насколько серьезно ( клинически значимо ) оно увеличивает этот риск в отношении отдельно взятой пациентки. Итак, наша гипотеза заключается в следующем: наличие у беременной выраженного ожирения клинически значимо увеличивает вероятность возникновения преэклампсии. Гипотеза интересная, но ее формулировка не дает нам никакого руководства к действию. Какие аргументы за или против увеличения вероятности мы можем предоставить, если само это понятие никак нами не определено? И что мы понимаем под термином «клинически значимо»? Для этого ответим на вопрос, почему специалист заподозрил, что ожирение увеличивает риск преэклампсии? Потому что ему показалось, что среди женщин с преэклампсией, эта патология регистрировалась чаще, чем среди тех, кто не имел этого грозного осложнения беременности. Иными словами наша гипотеза может быть переформулирована следующим образом: у беременных с выраженным ожирением преэклампсия возникает чаще, чем у беременных с нормальным ИМТ. Для проверки (доказательства или опровержения) такой гипотезы все еще нельзя применить статистические методы, поскольку этими методами можно проверить только статистические гипотезы, т.е. такие, которые сформулированы в терминах статистических параметров, но все же она открывает путь к решению нашей проблемы. Чтобы понять чаще или реже какое-то событие происходит при наличие известного признака, чем при его отсутствии, нужно разбить имеющуюся выборку на две группы, одна из которых содержит все исследуемые объекты с данным признаком, а другая – все объекты, у которых этот признак отсутствует. Затем необходимо каким-то образом сравнить эти две группы в отношении исследуемого события. Таким образом, возвращаясь к нашей задаче, нам необходимо разбить выборку беременных женщин на две группы по признаку наличия или отсутствия выраженного ожирения и подсчитать, сколько раз преэклампсия регистрировалась в каждой группе. (Отметим в скобках, что в данном случае мы имеем дело с ретроспективным обсервационным исследованием , к результатам которого, особенно ошеломляющим, необходимо относиться очень осторожно и взвешенно, поскольку в таких исследованиях отсутствует фактор рандомизации, отсекающий неизвестные или неучтенные побочные влияния на исследуемые признаки. Этот вопрос слишком емкий и требует отдельного освещения, поэтому здесь мы не будем останавливаться на нем подробно. Стоит лишь сказать в защиту нашего примера, что мы не может по своему усмотрению управлять показателем ИМТ, поэтому вынуждены воспользоваться таким дизайном. Несмотря на лавину критики, обрушиваемой на обсервационные исследования, они все же обладают большой ценностью и информативностью, поскольку большей частью именно они служат источником новых идей и гипотез, подлежащих проверке. Просто, как любой инструмент, они требуют знаний и опыта. Скальпель в неумелых руках тоже может стать источником многих неприятностей.)

Итак, в результате мы имеет следующую таблицу

  Преэклампсия есть Преэклампсии нет Всего в строке
Ожирение есть 105 104 209
Ожирения нет 383 1686 2069
Всего в столбце 488 1790 2278

Расположение строк и столбцов этой таблицы должно находится в определенном порядке для того, чтобы показатели, рассчитанные из нее в дальнейшем, имели смысл и могли быть корректно интерпретированы. В первой строке всегда должны быть записаны результаты, касающиеся группы, в которой имел место исследуемый фактор воздействия, говоря простым языком, первая строка отводится для группы, на которую было оказано исследуемое воздействие или объекты которой имели исследуемый фактор риска. Вторая строка содержит результаты так называемой «контрольной группы», хотя это не всегда действительно контрольная группа в строгом смысле этого термина. Как правило, это группа, где исследуемый фактор риска отсутствовал. Иначе говоря, первой должна быть группа, представляющая исследовательский интерес, т.е. та группа, объекты которой подвергались (или наоборот не подвергались, если нас интересует не наличие, а отсутствие воздействия) фактору риска или какому-то другому воздействию, влияние которого нам надо исследовать. Во второй строке должны быть результаты, полученные в той группе, с которой будет происходить сравнение эффекта. Аналогично, в первом столбце записывается, сколько раз интересующее нас событие или явление было зарегистрировано в первой и второй группах, во втором столбце – сколько раз оно отсутствовало, т.е. результаты, касающиеся интересующего нас события должны находиться в первом столбце.

Такая таблица называется иногда таблицей сопряженности признаков. Она позволяет выявить наличие связи между двумя признаками объекта, а также между фактором риска и исследуемым событием, которое по гипотезе должно быть связано с ним. Такие признаки называются дихотомическими, т.е. принимающими только два значения. Это очень важно отметить, поскольку метод нацелен именно на изучение связи между такими признаками. Как правило, это наличие или отсутствие какого-то фактора, но, вообще говоря, любой показатель, даже имеющий непрерывную числовую шкалу, можно преобразовать в дихотомический признак, определив точку разбиения его шкалы на две части, например: ИМТ>=26 и ИМТ<26, равносильно нашему качественному параметру, принимающему значения: «ожирение есть» и «ожирения нет». Этот нехитрый прием позволяет применять данный метод достаточно широко, не заботясь о параметрических характеристиках выборок.

Интуитивно понятно: первое, что мы можем получить из этой таблицы, это частота преэклампсии в группе, где отмечалось ожирение, и в группе, где оно не было зарегистрировано.

Частота события в экспонированной группе ( Experimental Event Rate, EER ) – это частота события в группе, подвергавшейся воздействию исследуемого фактора (если исследуемым фактором является отсутствие риска, значит – не подвергавшейся этому воздействию). Она рассчитывается как отношение количества объектов в группе, у которых было зарегистрировано событие, к общему числу объектов в этой группе. В нашем случае параметр EER равен количеству беременных с ожирением, у которых была зафиксирована преэклампсия, деленному на общее число беременных с ожирением. Итак, делим первое число первой строки на последнее число этой же строки, и затем умножаем на 100, чтобы получить относительную частоту в процентах. Это будет равно 50.2%.

Частота события в контрольной группе ( Control Event Rate, CER ) – это частота события в группе контроля или той группе, с которой проводится сравнение. Она также рассчитывается делением количества объектов с зарегистрированным событием на общее число членов этой группы. В нашем примере параметр CER равен количеству беременных с нормальным показателем ИМТ, деленному на общее число таких беременных. Получаем 18.5%.

Мы получили так называемые точечные оценки относительных частот преэклампсии в группе риска и контрольной группе. Казалось бы, осталось их сравнить, и анализ закончен. Но не все так просто, поскольку мы имеем дело не с точными значениями этих частот, а с так называемыми точечными оценками, которые подвержены статистической ошибке, поэтому вполне вероятно, что в следующей выборке мы получим другие значения, поскольку мы рассчитываем эти частоты на основе не всей популяции, а лишь ее репрезентативной части, приблизительно отражающей свойства популяции. Обратим внимание на слово «приблизительно»: именно этот факт и является источником статистической ошибки точечных оценок, но в то же время именно он позволяет нам применять статистические методы. В первую очередь необходимо рассчитать стандартную ошибку доли, т.е. статистическую ошибку каждой из частот, которая дает представление о точности нашей оценки. Поскольку полученные частоты могут измениться при расчете на другой выборке, нам, конечно, хотелось бы узнать, насколько существенны могут быть эти изменения, и вообще какие минимальные интервалы значений «гарантированно» покрывают реальные точные значения искомых частот. Термин «гарантированно» очень неудачен и несовместим с самой природой статистики. Он специально использован здесь, чтобы обратить внимание на этот важнейший факт. Статистика никогда ничего не может гарантировать безоговорочно и точно. Это своего рода парадоксальный раздел точной науки математики, в основе которого лежит неточность, имеющая, однако, свое измерение. Эта измеренная неточность носит название вероятности. Итак, сформулируем вопрос корректно: какой минимальный интервал содержит реальное значение искомой частоты с вероятностью, скажем, 95%? Если учесть, что такой интервал называется в статистике 95% доверительным интервалом (95% ДИ), то задача превращается в нахождение 95% доверительных интервалов для относительных частот преэклампсии в группе с ожирением и в группе с нормальным весом. Для этого существуют хорошо известные стандартные статистические методы. С практической точки зрения 95% доверительный интервал означает, что 95% всех потенциальных выборок дадут нам значения частот, попадающих в полученные интервалы, и лишь в 5% случаев значения частот выйдут за найденные пределы, и эти 5% мы будем считать артефактами, не отражающими реалии исследуемой популяции. Смысл доверительного интервала на самом деле достаточно глубок и достоин отдельной статьи, но и такого приблизительного понимания достаточно, чтобы адекватно оценить результаты расчетов. Понимание это крайне необходимо, так как доверительные интервалы сопровождают очень многие статистики, в том числе и в рассматриваемой методике.

Точечные и интервальные оценки частот в двух группах дают первое впечатление об эффекте воздействия фактора риска на исследуемое событие, но впечатление – это очень субъективное понятие. Действительно ли одна частота отличается от другой, или, может быть, их разница находится в пределах статистической ошибки, т.е. обусловлена случайностью и на самом деле эти частоты равны? Если они все-таки различны, т.е. влияние фактора риска на частоту возникновения события имеет место, то сколь значительно это влияние? Говоря математическим языком, насколько присутствие фактора риска увеличивает частоту появления события? Поскольку речь идет о расчетах, производимых на выборке, то хотелось бы получить как точечную (выборочное значение частоты ± ее стандартная ошибка), так и интервальную (доверительный интервал значений с заданной вероятностью, напр. 95% или 99%) оценки. Обратимся сначала к первому вопросу. Как понять и доказать, что одна частота действительно (в статистике используется термин « значимо ») отличается от другой. Мы подходим вплотную к самому важному моменту трансформации нашей гипотезы из терминов предметной области в термины статистики, что позволит нам применить стандартные методы проверки статистических гипотез и численно выразить степень нашей уверенности в том, что мы утверждаем. Итак, если частоты в двух группах (А и В) не отличаются друг от друга, то значит они равны: Частота(А) = Частота(В) или то же самое Частота(А)/Частота(В) = 1. Значит, если фактор риска не оказывает влияния на частоту возникновения события, то частоты в обеих группах должны быть приблизительно одинаковы, а их частное не должно отличаться от 1. Но крайне мало вероятно, что мы получим на выборках такие частоты, которые будут точно равны друг другу, а их частное – единице, даже если в действительности никакого влияния нет. Заметим, что поскольку, как мы выяснили выборочные частоты имеют стандартные ошибки, то и их частное будет иметь ошибку, обусловленную случайность, а значит, для этого частного можно найти и доверительный интервал, в пределах которого с заранее заданной вероятностью будет находиться реальное значение этого частного. Рассмотренное отношение Частота(А)/Частота(В) (где А – группа риска, а В – группа контроля) получило название относительный риск .

Мы хотим узнать, действительно ли относительный риск отличается от 1, или это отличие чисто случайное, обусловленное конкретной выборкой. Обычное слово «действительно» заменяется в статистике термином «значимо». Итак, мы хотим проверить, значимо ли отличается выборочное значение относительного риска от 1. Поскольку относительный риск величина случайная, имеющая нормальный закон распределения, то наше предположение о том, что ее выборочное значение не отличается значимо от 1 (нуль-гипотеза) является уже статистической гипотезой, к которой применимы статистические методы проверки. Таким образом, мы выразили нашу гипотезу в терминах статистических параметров и имеем в нашем распоряжении весь арсенал статистических методов для ее доказательства или опровержения, но с заранее заданной степенью уверенности. А аргументы за или против этой гипотезы (нуль-гипотезы об отсутствии значимого различия) достаточно очевидны. Как для любого параметра, рассчитанного по выборке, для данного значения относительного риска можно найти доверительный интервал с заданной вероятностью (напр. 99%). Смысл этого интервала мы обсуждали выше, но коротко, 99% ДИ означает, что реальное значение искомого относительного риска не выходит за пределы полученного интервала и лишь 1% вероятности, что мы, принимая эту гипотезу, допускаем ошибку. Таким образом, если в результате расчетов, мы получаем 99% доверительный интервал, не содержащий 1, мы можем говорить о том, что частоты в группах статистически значимо различаются с уровнем значимости 1%, т.е. фактор риска действительно оказывает влияние на частоту появления события.

Вернемся к нашему примеру о влиянии ожирения на частоту возникновения преэклампсии. Находим 95% ДИ параметров EER и CER , т.е. относительной частоты преэклампсии в группе риска и группе сравнения. Граничные значения этих интервалов представлены ниже –

95% ДИ EER (относительная частота преэклампсии в группе риска): (43.3% ; 57.1%) ;

95% ДИ CER (относительная частота преэклампсии в группе сравнения): (16.7% ; 20.3%).

Относительный риск по этим данным составил 2.7 с 95% доверительным интервалом от 2.3 до 3.2. Поскольку 1 не входит в этот интервал, мы можем утверждать, что значение относительного риска СТАТИСТИЧЕСКИ значимо отличается от 1. Иными словами, тот факт, что полученное значение относительного риска не равно 1, является свойствами исследуемой популяции, а не случайными факторами, обусловленными нашей выборкой. Поскольку относительный риск в популяции отличается от 1, то мы можем утверждать (с вероятностью ошибки менее 5%), что выраженное ожирение действительно увеличивает частоту возникновения преэклампсии. Но насколько существенно это влияние с клинической точки зрения? Насколько значимый вклад вносит этот фактор в увеличение частоты преэклампсии? В данном случае слово значимый имеет уже не статистический, а КЛИНИЧЕСКИЙ смысл. Несмотря на то, что статистическая достоверность влияния доказана при заданном уровне значимости, с клинической (научной) точки зрения это влияние может быть малоинтересно или несущественно. Например, предположим, что статистически значимый рост частоты преэклампсии под влиянием фактора риска составил 1%. С клинической (научной) точки зрения это едва ли имеет большое значение, хотя статистически наличие влияния доказано на заданном уровне значимости в 5%. Итак, как узнать насколько существенный вклад вносит фактор риска в увеличение частоты события? На этот вопрос может ответить полученное значение абсолютного увеличения (уменьшения) частоты события. Этот показатель называется еще атрибутивным риском . Если в группе риска частота события составляет, например 60%, а в контрольной группе – 35%, то атрибутивный риск в этом случае равен 25%, т.е. фактор риска увеличивает вероятность возникновения события на 25%. Много это или мало – решать исследователю, поскольку только ему известны все особенности того процесса, который он изучает. Возвращаясь к нашему примеру, атрибутивный риск выраженного ожирения в отношении преэклампсии составил 31.7% ± 1.4% с 95% ДИ от 29.0% до 34.4%, т.е. для каждой беременной с ожирением вероятность такого осложнения, как преэклампсия, возрастает в среднем на 31.7%, минимум – на 29.0%, максимум – на 34.4%. Для практикующего врача увеличение или снижение риска, выраженное в терминах вероятности, хотя и дает некоторое представление о процессе, но все же является достаточно теоретическим. Чтобы перевести полученные результаты в практическую плоскость, рассчитывается показатель NNT ( Number Need to Treat ), или число больных, которых необходимо пролечить (или подвергнуть фактору риска), чтобы получить один желаемый (или исследуемый) исход. NNT рассчитывается из атрибутивного риска и в нашем случае составляет 3.15 с 95% ДИ от 2.9 до 3.5. Это означает, что в среднем из каждых трех беременных, страдающих выраженным ожирением, у одной следует ожидать развития преэкламсии. Такая информация дает картину, более приближенную к практическому принятию решений.

На этом конкретном примере мы показали:

  • как перевести исследовательскую проблему конкретной предметной области в термины математической статистики с тем, чтобы исследовать ее этими методами
  • и как затем проинтерпретировать полученные результаты, т.е. наполнить численные статистические выводы реальным содержанием и смыслом.

Кроме того, мы рассмотрели несложный, но достаточно информативный метод, позволяющий, анализировать качественные признаки дихотомической природы.