ТИРОНЕТ – все о щитовидной железе Для специалистов Журнал Тиронет Архив журнала 2003 год № 1
Три "Почему ..." и пять принципов описания статистики в биомедицинских публикациях
В. Леонов
НЕКОТОРЫЕ ПРИНЦИПЫ ОПИСАНИЯ СТАТИСТИКИ
Вряд кто сегодня рискнет оспаривать тезис о необходимости и целесообразности использования статистики в биомедицинских исследованиях. Однако, и не оспаривая его, можно произвести то, что в логике называется "подменой понятия", т.е. жонглируя статистическими терминами по сути дела выхолостить из работы основные принципы разумного применения статистики. Использование любого математического аппарата имеет своей целью создание математической модели набора эмпирических фактов, наблюдений, полученных исследователем.
В тех случаях, когда установлено постоянное и удовлетворительно точное согласие между такой моделью и опытом, такая модель приобретает практическую ценность. Эта ценность может быть достаточно велика вне зависимости от того, представляет ли она чисто математический интерес. Такая модель может быть использована уже для практических целей. Условно такие цели можно подразделить на три основных группы: 1) описание наблюдений; 2) анализ наблюдений; 3) предсказание на основе наблюдений. Выберем наиболее часто используемые для этих целей методы прикладной статистики и попытаемся дать краткие рекомендации по их описанию в публикациях, поскольку в противном случае вместо статьи пришлось бы писать отдельную монографию.
Итак, методы статистики могут использоваться для описания наблюдений. Пожалуй, здесь следует уточнить, что когда мы говорим "описание наблюдений", подразумевается все же "описание генеральной совокупности, популяции". Поскольку обычно мы имеем дело со случайной выборкой наблюдений, и выводы только о ней гораздо меньше интересуют авторов и читателей этих статей. Нас больше интересует сама генеральная совокупность, популяция, из которой были извлечены наблюдения. Именно поэтому в процессе статистического анализа выборочных данных мы проверяем те или иные статистические гипотезы, далее получаем некоторое значение выбранного нами критерия вместе с достигнутым уровнем значимости, и, сравнивая это значение с критическим уровнем, принимаем или отвергаем эту гипотезу. Однако ВСЕГДА эти гипотезы мы формулируем относительно параметров генеральной совокупности, популяции.
Нередко бывает так, что один и тот же метод можно воспринимать сразу в трех "ипостасях", т.е используя его и для описания, и для анализа, и для предсказания. К примеру, логистической регрессией мы ОПИСЫВАЕМ параметры генеральной совокупности, но одновременно мы и АНАЛИЗИРУЕМ взаимосвязи в этой совокупности, результат же логистической регрессии мы применяем для ПРЕДСКАЗАНИЯ. Поэтому, конструируя описание использованных методов биостатистики в своей публикации, необходимо всегда помнить, КАКУЮ ЦЕЛЬ вы преследуете, давая будущему читателю это описание. Итак, сформулируем первый принцип описания статистики в публикациях: описание должно иметь цель. Например, приводя результаты АНАЛИЗА, мы можем использовать эти результаты для целей ОПИСАНИЯ.
В частности, одно из направлений описания изучаемых совокупностей заключается в том, чтобы произвести так называемую редукцию, уменьшение размерности признакового пространства. С помощью таких теоретических построений возможно данные, описываемые большим количеством признаков, описать очень компактно, при этом интересующие нас специфические особенности этих популяций могут быть также обобщены и сведены к нескольким интегральным показателям.
В опубликованных ранее требованиях говорится: "Дайте определение статистическим терминам, сокращениям и большинству символов". Трудно не согласиться с таким требованием, и следовать ему, конечно же, необходимо. Однако давайте задумаемся, почему редакторы сочли необходимым включить эту фразу в свои рекомендации? Разве это не является само собой разумеющимся требованием применительно к любой научной терминологии? Полагаю, что этот факт говорит об отсутствии в журналах устоявшихся, единых требований к используемым в статьях статистическим терминам, сокращениям и символам. Мы можем встретить в журнальных требованиях к статьям упоминание о размерах рисунков и подписях к ним и т.п., но не найдем там указания о том, какими буквами (латинскими или греческими) обозначать выборочные и генеральные параметры исследуемых популяций, как правильно записывать уровень значимости для статистического критерия и т.д. Стало быть до того времени, пока появятся отраслевые или внутренние стандарты НИИ и вузов, ориентированные на единообразную терминологию, необходимо следовать этим требованиям и не забывать приводить такие определения.
Пожалуй наиболее часто об этом требовании забывают те, кто не долго думая, пишут в статье выражения вида 5,6±1,4 , при этом нигде не уточняя, какие именно величины соединены знаком ± . Вот и ломает голову потом бедный читатель, вспоминая нехорошими словами авторов: что такое 1,4 — или это стандартное отклонение, или же это ошибка среднего. Поскольку относительно 5,6 вариантов меньше, видимо это среднее.
Во всяком языке немало слов имеющих несколько смыслов. Например, согласно англо-русского словаря В.К.Мюллера от 1963 г. английское слово "point" имеет 39 значений. Немало таких многозначных слов и в русском языке. К примеру, слово "фактор" также имеет довольно много смыслов. Выше, в одном из примеров статистической рецензии авторы как раз допустили смешение разных смыслов этого термина. Проблема стандартизации научной терминологии особенно остро стоит в тех областях знания, которые осваивают "смежные территории", работая на "стыке наук", как в нашем случае. Довольно подробно многочисленные аспекты этой проблемы рассмотрел в своей книге "Вероятностная модель языка" В.В. Налимов, с которой мы настоятельно рекомендуем познакомиться всем нашим читателям.
Почему важно помнить об этом, формулируя описание статистических методов в статье или диссертации? Когда вы создаете такое описание нужно помнить, что оно относится не непосредственно к изучаемому вами объекту или явлению, а к МОДЕЛИ этого объекта или явления. Как известно, всякая модель имеет и свой собственный язык. Свой собственный язык имеет и статистическое моделирование. Например, для непосвященного слова "си-ми-ля-ре-соль-до-фа" или "фа-до-соль-ре-ля-ми-си" будут просто названиями нот. Тогда как для тех, кто знает теорию музыки, это будут последовательности знаков альтерации. Живший более двух тысяч лет назад философ Сократ говорил: " Точное логическое определения понятий — главнейшее условия истинного знания". Этому утверждению нужно следовать и в нашем случае. Сформулируем второй принцип описания статистики в публикациях: описание должно соответствовать контексту. Согласно этому же принципу необходимо тщательно согласовывать между собой всю терминологию присущую именно той модели, о которой идет речь.
Задачи АНАЛИЗА чаще всего относятся к статистическому анализу причинности, установлению наличия или отсутствия причинно-следственных связей. В силу того, что такие связи обычно имеют вероятностную природу, оценки параметров таких связей всегда имеют различные ошибки. Непосредственную связь с величинами таких ошибок имеют уровень значимости и мощность статистического критерия. В свою очередь задачи предсказания невозможны без предшествующего этапа АНАЛИЗА, поскольку именно он дает практический инструментарий для такого предсказания. Отсюда следует третий принцип ("принцип трех ножек табуретки"): описания разных этапов должны взаимно дополнять друг друга. Если в списке использованных методов не упомянут некий конкретный метод и цель и его использования, то нет смысла и обсуждать полученный с его помощью результат, и наоборот.
Если вы уверены в том, что все процедуры статистического анализа проведены корректно и полученные выводы адекватны действительности и важны, то смело описывайте проведенные статистические исследования настолько подробно, насколько хватит вашей эрудиции. Цель такой подробности единственная — убедить будущего читателя в том, что вашим результатам можно доверять, что их не стоит ПРОВЕРЯТЬ, а нужно ИДТИ ДАЛЬШЕ, т.е. либо использовать эти результаты в своей конкретной практике, либо же продолжить эти исследования, опираясь, отталкиваясь от ваших результатов. Как известно, "хорошего много не бывает" :-) Так и здесь, подробное описание не только будет способствовать обретению веры у читателя в ваши результаты, но и поможет ему воспроизвести ПОДОБНЫЕ исследования с новыми, собственными данными. И цель такого исследования будет не проверка подлинности ваших результатов, а их развитие, углубление. Из этих утверждений можно сформулировать четвертый принцип: степень детализации и объем описания статистики в публикации должны быть адекватны той роли, которую использованные методы сыграли в получении обсуждаемых в работе выводов.
К примеру, в связи с интенсивным развитием исследований в области геномики, увеличилось и количество работ по статистической генетике. В публикациях по этим работам нередко большую часть занимает обсуждение и исследование самих статистических процедур и критериев, и гораздо меньшую часть первые результаты их применения.
Если же вы хотите скрыть недостаточно высокое качество собственных результатов статистического анализа, т.е. когда вы сами весьма сомневаетесь в том, что ваши выводы действительно адекватны действительности, то самое лучшее что вы можете сделать, это просто промолчать о том, что вы делали какой-то статистический анализ. Поскольку в этом случае велика вероятность, что вы что-то напутаете, и читатель обнаружит вашу фальшь. Более того, вы можете оказаться в ситуации, когда одним из читателей окажется профессионал и, обнаружив эту фальшь, он обнародует результаты своей находки. Как это случилось, к примеру с мошенником Дж. Дарси в Национальном институте крови, сердца и легких, когда в мае 1981 года его коллеги испытали шок, узнав, что он занимается фальсификацией результатов исследования. Так, в его таблицах, содержащихся в публикациях, было указано, что согласно анамнезу, 17-летний юноша, страдающий необычным сердечным недугом, имел четырех детей: 4, 5, 7 и 8 лет. Пятый принцип описания: помните, что читателей во много раз больше, чем авторов публикаций. Из этого следует, что рано или поздно найдется опытный читатель, который обнаружит ваши ошибки или неточности описания.