ТИРОНЕТ – все о щитовидной железе Для специалистов Журнал Тиронет Архив журнала 2002 год № 1-2
Доказательная медицина и отечественная медицинская наука
Фадеев В.В. 1, Леонов В.П.2,
Реброва О.Ю. 3, Мельниченко Г.А.1
Проблемы эндокринологии – 2002 г.
1 Кафедра эндокринологии ММА им. И.М. Сеченова
(зав. – академик РАМН
2 Факультет информатики Томского Государственного Университета
(декан – доцент, к.ф.-м.н.
3 НИИ неврологии РАМН (директор – академик РАМН
IV. ИСПОЛЬЗОВАНИЕ СТАТИСТИЧЕСКИХ МЕТОДОВ В ОТЕЧЕСТВЕННЫХ МЕДИЦИНСКИХ ИССЛЕДОВАНИЯХ
На сегодняшний день более или менее очевиден тот факт, что доказательство каких-либо гипотез в медицине, как правило, требует применения статистических методов. Почему этот факт очевиден именно "более или менее", мы покажем дальше. Здесь хочется обратить внимание на то, что еще в конце XIX – начале XX века российская медицинская наука активно осваивала статистический инструментарий [5]. Однако в период 40-х – 50-х гг. гонения на генетику привели к изгнанию из биологии и медицины и методов статистики. Более того, тем медикам, которые отваживались использовать в своих диссертациях статистику, ВАК СССР отказывал в присуждении ученых степеней [5].
В 1940 г. в "Сборнике докладов академии наука СССР" академик Т.Д. Лысенко пишет: "Я не чувствую себя достаточно компетентным, чтобы разбираться в этой системе математических доказательств. К тому же меня, как биолога, сейчас не интересует вопрос о том, хорошим или плохим математиком был Мендель. ... Нас, биологов, не интересуют математические выкладки, подтверждающие практически бесполезные статистические формулы менделистов" [6]. Заметим, что несмотря ни на что, Лысенко честно признается в своей некомпетентности в этом вопросе, что, впрочем, не помешало ему в 1946 году признать ненужным ГОСТ по анализу экспериментальных наблюдений в биологии и уничтожить весь отпечатанный его тираж [5] .
Вслед за статьей Т.Д. Лысенко, следует статья Э. Кольмана [3], цитаты из которой, на наш взгляд, продолжают до настоящего времени определять отношение к статистике авторов многих отечественных работ: "Мы, биологи, не желаем подчиняться слепой случайности (хотя бы математически и допустимой) и утверждаем, что биологические закономерности нельзя подменять математическими формулами и кривыми. Теория вероятностей и статистический метод исследования являются лишь вспомогательными орудиями в конкретной науке (например, в политической экономии, в физике, в биологии). В зависимости от того, какая конкретная теория контролирует ее применение, статистика будет давать результаты, правильно или неправильно отражающие материальную действительность".
Если перефразировать Э. Кольмана, получится знакомая многим шутка: "Статистика должна служить человеку, а не человек статистике". Отсюда формируется стандартный алгоритм исследования. Аспирант или докторант получает тему, начинает над ней активно работать, приходит к неким выводам. Далее возникает вопрос о подтверждении этих выводов. То есть исследователь изыскивает метод, который подтвердит уже сделанные им выводы, а не наоборот: использует заранее запланированный статистический метод, который подтвердит или отвергнет заранее сформулированную гипотезу, после чего на основании этого делает какой-либо вывод. Более того, сама тема, которая поручается аспиранту, очень часто уже подразумевает некий вывод, который формулируется еще до выполнения работы.
В связи с этим вспоминается работа, которая, после рассуждений об актуальности темы, начиналась словами: "Поскольку мы уже тридцать лет оперируем, мы имеем право на собственное мнение". Парадокс, но права на собственное мнение никто не отменял. Зачем же эта фраза? Авторы чего-то боялись, пуская в ход даты окончания медицинского института вместо строгой научной аргументации своего мнения? Таким образом, традиции последователей академика Лысенко ("конкретная теория контролирует применение статистики") продолжают жить.
Большинство использующихся в современной медицине статистических методов была разработаны еще в начале XX века. Так всеми любимый t-критерий Стьюдента был разработан Вильямом Госсетом в 1908 году. Работая на пивоваренном заводе "Гиннес", ученый не мог подписываться своей фамилией и публиковался под псевдонимом "Студент". Широко используемые в настоящее время непараметрические методы были разработаны позднее – в 40-х – 50-х годах. Во-вторых, следует заметить, что большинство наиболее используемых ныне статистических методов были подробно описаны в отечественной литературе прошлых лет. Более того, в 70-х годах издавалось значительно больше книг по использованию статистики в медицине и планированию эксперимента. Так, аргументация преимуществ непараметрических методов, использующихся в отечественных работах в минимальном объеме, были подробно и доступно описаны в книге "Применение непараметрических критериев статистики в медико-биологических исследованиях", которая вышла в 1973 году [2]. Таких примеров можно привести достаточно много. В дореволюционной России выходило большое количество руководств по биологической статистике, а знание этой дисциплины активно пропагандировалось [5]. Так, в своем учебнике по основам военно-полевой хирургии Н.И. Пирогов пишет: "Я принадлежу к ревностным сторонникам рациональной статистики и верю, что приложение ее к военной хирургии есть несомненный прогресс"[7].
На прошедшей в середине апреля 2001 года встрече Президента РФ В.В. Путина с представителями информационных предприятий был отмечен большой разрыв между возможностями новых информационных технологий, и их фактическим состоянием. Далее В.В. Путин добавил, что многие держат компьютеры как дань моде. В полной мере это замечание относится и к медицинской науке. Наиболее наглядно этот разрыв обнаруживает себя в области компьютерного анализа биомедицинских данных.
По мнению А.Е. Платонова [8], ученый-медик в настоящее время может не знать ни одной формулы, но должен четко понимать:
- Как формулируется тот вопрос, на который он хочет ответить с помощью статистического анализа?
- Какие статистические процедуры необходимы для ответа на данный вопрос?
- Как следует интерпретировать результаты?
С одной стороны, действительно, возможности современных статистических пакетов программ во многом избавляют исследователей от необходимости знания статистических формул. Однако даже для того, чтобы сформулировать правильно вопрос, на который ученый-медик хочет ответить с помощью статистического анализа, ему необходимо понимание как статистической терминологии, так и методов поиска ответа на эти вопросы, поскольку для поиска ответа на один и тот же сформулированный вопрос существует несколько методов.
Но можно ли, не зная ни одной формулы по статистике, выбрать адекватную статистическую процедуру и затем столь же адекватно интерпретировать результат ее применения? Аналогичной является ситуация, когда человеку, не знающему анатомии человека, предложили бы провести хирургическую операцию и по ее окончании дать прогноз состояния здоровья пациента.
Как же обстоит дело с описанием использования статистических методов в отечественной биологии и медицине? В статье [4] приводятся результаты анализа 1538 отечественных оригинальных статей и 259 диссертационных работ по биологии и медицине, которые были опубликованы в период с 1990 по 1997 годы.
Почти в каждой четвертой из работ вообще отсутствовало упоминание о статистических методах и критериях. Тем не менее, большинство таких работ содержат в тексте и таблицах упоминание о том, что "р < 0,05" или "р < 0,01". Среди оставшихся работ названия компьютерных программ, с помощью которых проводился анализ, указаны только в 3% случаев. В большинстве работ, в которых используется статистическая обработка данных, этим упоминанием, как правило, и ограничиваются. В 45% работ такое упоминание включает использование клише типа: "результаты обрабатывались статистически", "обработку данных проводили статистическими методами", "результаты исследований подвергли обработке общепринятыми методами вариационной статистики" и т.д. Если провести аналогию на более понятном клиницисту языке, эти формулировки напоминают фразу "Больных лечили стандартными (общепринятыми) методами", без упоминания самого стандарта.
В 30% работ авторы статей указывали фамилию автора пособия по статистики ("Статистический анализ проводился по В.Ю. Урбаху"), какой-то статистический параметр ("достоверность отличий определяли по t-критерию Стьюдента"), тип ЭВМ или персонального компьютера ("Статистическая обработка материала произведена с использованием мини-ЭВМ "Искра-1256"). Еще в 25% проанализированных работ описание применявшихся статистических методов безграмотно или противоречиво ("Вероятность случайности различий соответствует достоверности", "Различие считалось достоверным при p < 0,05, т.е. в тех случаях, когда вероятность различия составляла больше 95%").
В 85% работ при описании выборок авторы использовали выражение "М ± m", при этом в большинстве случаев без объяснения того, что обозначают эти буквы: если M – это, скорее всего, среднее арифметическое, то что такое m (среднеквадратичное отклонение, стандартная ошибкой среднего и т.д.) – неясно. После уточнения у автора в большинстве случаев оказывается, что это "что-то ± что-то" является "среднее арифметическое ± его стандартная ошибка". Пришедшее в биологическую статистику из физики широкое использование стандартной ошибки среднего в большинстве случаев не оправдано, поскольку не позволяет сделать читателю вывод о реальном разбросе в выборке, то есть о ее однородности. В выборке с нормальным распределением (и только с нормальным, которых в медико-биологических исследованиях меньшинство) это позволяет сделать среднеквадратическое отклонение.
Вероятным поводом для использования стандартной ошибки (m) вместо среднеквадратического отклонения (SD) является то, что исследователи сталкиваются с ситуацией, когда SD превышает среднее значение (M), и соответственно запись "M + SD" оказывается в большинстве случаев бессмысленной. Не зная, как описывать распределения, отличные от нормального, авторы приводят запись "M + m", т.к. всегда m<SD, и, следовательно, такое представление результатов позволяет избежать заведомо некорректной ситуации.
Результаты изучения частоты использования различных статистических критериев оказались еще более мрачными: в 15% случаев статистический анализ не проводился, а в 53% случаев использованный статистический критерий не указан. В тех случаях, когда было сделано и то и другое, в 59% работ был использован критерий Стьюдента. Корреляционный анализ проводился в 9% работ, критерий "Хи-квадрат" использован в 9% работ, 4% пришлось на дисперсионный (ANOVA) и 4% на регрессионный анализ. Другие методы использовались лишь в 9% случаев.
С применением t-критерия Стьюдента складывается вполне обычная ситуация, то есть та, которая описывается в большинстве современных руководств по медицинской статистике в разделе "Типичные ошибки". Большое количество примеров некорректного применения критерия Стьюдента приведено и в специальном разделе "Кунсткамера" электронного журнала "Биометрика" (www.biometrica.tomsk.ru/kk/ndex0.htm). В недавно переведенной на русский язык и вышедшей в издательстве "Практика" книге Стентона Гланца "Медико-биологическая статистика" [1] автор прямо в предисловии пишет: "… Результаты многих биологических и медицинских работ основаны на неправильном использовании статистических методов и способны только ввести в заблуждение. Большинство ошибок связано с неправомерным использованием критерия Стьюдента".
Во-первых, необходимым условием использование любого параметрического метода (основанного на сравнении параметров выборок), к которым относится t-тест, является нормальный характер распределения. Среди 1060 проанализированных в цитированной ранее статье работ [4], в которых использовался t-тест, упоминание о проверке нормальности распределения в выборке было только в 12 работах.
Вторым условием использования t-теста, равно как и дисперсионного анализа, является равенство дисперсий в выборках, то есть в них должен быть сопоставимый разброс данных относительно среднего. Необходимость соблюдения этих достаточно жестких условий приводит к тому, что в зарубежных медико-биологических исследованиях все более и более популярными становятся непараметрические методы, мощность которых незначительно уступает таковой для параметрических. Ряд авторов вообще считает, что в медико-биологических исследованиях, особенно если речь идет о малых выборках, должны использоваться только непараметрические методы [8]. Как указывалось, доля использования критериев Манна-Уитни, Уилкоксона, Крускала-Уоллиса и ряда других – крайне мала.
Наконец, третьей весьма распространенной ошибкой в применении t-теста является его использование для попарного сравнения трех и более групп, тогда как он предназначен лишь для сравнения двух групп и является частным случаем дисперсионного анализа. Авторы порой указывают значения t 1-2, t 1-3 и t 2-3 при этом в одном из случаев "p" неизменно оказывается меньше 0,05. Ловушка заключается в том, что чем больше сравнений производится на одних и тех же данных, тем больше вероятность того, что значение "p" превысит границу статистической значимости. То есть "кульминационная" и, как правило, единственная оставшаяся от всей статистической обработки фраза "p<0,05" – не будет отражать реального положения дел.
При необходимости попарных сравнений, после того, как существование различий между всеми группами в целом будет доказано дисперсионным анализом, t-тест может быть использован с поправкой Бонферрони, либо должны использоваться критерии Ньюмена-Кейлса, Тьюки и Даннета. Непараметрическим аналогом указанных методов является критерий Крускала-Уоллиса.
Как уже указывалось, в 7% проанализированных работ использовался корреляционный анализ. В ситуации, когда статистический анализ начинается после того, как работа уже выполнена, исследователю бывает трудно удержаться от того, чтобы не попытаться "прокоррелировать" все и вся – ".а вдруг обнаружится какая-то взаимосвязь?". Во-первых, такая постановка вопроса, при всей ее заманчивости, аналогична описанной выше, когда автор, проводя многочисленные попарные сравнения, пытается ответить на вопрос: "А нет ли между какими-нибудь группами хоть какого-нибудь различия или связи?". При критическом уровне статистической значимости р = 0,05 весьма вероятно, что для одного из нескольких десятков сравнений достигнутый уровень значимости окажется менее 5%.
Во-вторых, статистическая программа рассчитывает коэффициент корреляции между рядами цифр и ей, грубо говоря, все равно, что означают эти цифры. Другими словами, с определенной вероятностью можно найти статистически значимую сильную прямую или обратную корреляцию между числом фонарных столбов и бездомных кошек. Тем не менее, корреляция не означает, что между этими явлениями присутствует причинно-следственная связь, и, более того, отсутствие корреляции не означает, что эта связь отсутствует. В каждом втором случае использования корреляционного анализа авторы не указывают, какой именно коэффициент корреляции был ими использован – Пирсона, Спирмена или какой-либо другой [4]. Кроме того, достаточно типичным является использование авторами статей оборотов типа "выявлена достоверная корреляция", без приведения конкретных результатов корреляционного анализа, то есть термин "корреляция" очень часто используется не как определенное статистическое понятие, а как характеристика взаимосвязи явлений.
Довольно бессмысленно и само использование словосочетания "достоверная корреляция", в силу противоречивости его элементов. Термин "корреляция" предполагает наличие статистической связи, тогда как "достоверной" может быть только функциональная связь, ни никак не статистическая. Именно поэтому в статистике используется более корректное выражение "статистически значимая связь" (в т.ч. и связь корреляционная).
Хотелось бы немного остановиться еще на одной проблеме, которая охватывает не только статистическую обработку данных, но и планирование эксперимента. Как показывает практика, большинство исследователей уверено, что наиболее достоверные данные удается получить максимальным увеличением объема выборки, а все неудачи и "недостоверные" различия между выборками склонны списывать на недостаточный объем выборки. Лишь в единичных работах приводится расчет необходимого объема выборки, при котором с определенным уровнем значимости (например, 0,05 или 0,01) можно будет отвергнуть гипотезу (нулевую гипотезу) об отсутствии различий определенной величины между выборками. Объем выборки может быть рассчитан исходя из выбранного уровня значимости (например, 0,05), клинически значимой разницы между исследуемыми признаками и их стандартного отклонения, которые можно оценить в ходе пилотного исследования или при анализе данных литературы. К примеру, если клинически значимым считать уменьшение объема щитовидной железы на фоне лечения зоба на 5 мл, при том, что стандартное отклонение объема щитовидной железы составляет, к примеру, около 3 мл, при желаемом уровне значимости в 0,001, в каждую из двух сравниваемых групп должно войти 15 – 20 человек. Если, например, в таком исследовании в каждую из групп включить тысячу человек, то вероятность обнаружить статистические различия между группами значительно увеличивается. Однако при этом многократно увеличивается вероятность обнаружить клинически незначимые различия. Другими словами, при столь больших выборках разница между двумя группами может оказаться статистически значимой, при том, что объем щитовидной железы на фоне лечения изменится на десятые доли миллилитра, то есть указанная динамика не будет иметь ни малейшего клинического значения и, скорее всего, будет определяться погрешностью метода, т.е., в данном примере, погрешностью ультразвуковой волюмометрии щитовидной железы.
Возвращаясь к началу этого раздела статьи, заметим, что если целью работы является статистическое подтверждение сделанных заранее выводов, то использование приема максимально возможного увеличения объема выборки может привести к тому, что искомые статистические различия будут найдены. Если же исследователь ставит перед собой вопрос о клинически значимых различиях или динамике, а не о различии или динамике вообще, при этом он, как истинный ученый, способен абсолютно одинаково отнестись как к подтверждению, так и к отвержению сформулированной им заранее гипотезы, то ему следует рассчитать объем выборки и привести эти расчеты в своей статье.
Мы указали лишь на наиболее распространенные проблемы статистической обработки данных медико-биологических исследований. В заключении этого раздела хотелось бы привести еще одну цитату из книги С. Гланца "Медико-биологическая статистика" [1], который работает внештатным редактором "Journal of the American College of Cardiology", и его работа состоит в выявлении статистических ошибок в направляемых в этот журнал статьях. В настоящее время в большинстве зарубежных журналов с высоким рейтингом статьи проходят рецензирование статистиком, чего нельзя сказать об отечественных биомедицинских журналах и диссертациях. Так вот, С. Гланц ставит в заслугу своей многолетней работе по пропаганде доказательной медицины, то что "доля статей, содержащих ошибки, как и раньше, составляет около половины, но теперь уже половины предлагаемых к публикации, а не опубликованных работ".