ТИРОНЕТ – все о щитовидной железе Для специалистов Журнал Тиронет Архив журнала 2002 год № 3

Представление данных в оригинальных работах и их статистическая обработка

В.В. Фадеев
Проблемы эндокринологии – 2002 - Т. 48, N 3. – С. 47 – 48. "Редакционные материалы"

Статьей научного редактора "Проблем эндокринологии" В.В. Фадеева редколлегия журнала открывает новую рубрику "Редакционные материалы", в которой планируется публикация статей, направленных на повышение методологического уровня публикуемых работ.
Эта статья носит рекомендательный характер, однако, редколлегия журнала намерена планомерно повышать требования к оформлению поступающих в журнал рукописей и стремиться к полному соответствию этих требований международным стандартам.

Журнал "Проблемы эндокринологии" был основан в 1955 году и, как это указывается в периодически публикуемых в журнале памятках "К сведенью авторов", в нем издаются статьи по клинической и экспериментальной эндокринологии. На сегодняшний день, "Проблемы эндокринологии" фактически является основным печатным изданием российских эндокринологов. Такое положение журнала диктует необходимость поддержания высоких требований для выходящих в нем статей.

До настоящего времени требования к оформлению статей, которые публиковались в разделе "К сведенью авторов", излагались достаточно кратко. Так требования к статистической обработке, представляемых в редакцию статей, фактически ограничивались фразой: "Нужно указать, являются ли приводимые числовые значения первичными или производными, результатов одного наблюдения или целой серии, привести пределы точности, надежности, интервалы достоверности, оценки, рекомендации, принятые или отвергнутые гипотезы, обсуждаемые в статье".

Как показывает практика научного редактирования приходящих в редакцию журнала статей, требований, приведенных в столь телеграфном варианте, недостаточно. Часть статей приходится возвращать авторам, в связи с достаточно стандартными погрешностями в оформлении или представлении результатов.

В дальнейшем редакция "Проблем эндокринологии" планирует опубликовать более подробные требования к представляемым в журнал статьям. В разделе "Редакционные материалы" планируется давать расширенные комментарии к этим требованиям. Во многом они будут базироваться на положениях принятых в международной медицинской научной литературе. В этой связи, заметим, что в настоящее время более 500 научных журналов приняло 5-ю редакцию так называемых "Единых требований к рукописям, представляемым в биомедицинские журналы", которые были разработаны "Международным комитетом редакторов медицинских журналов" [6].

Эта небольшая статья призвана обсудить наиболее типичные погрешности представления данных, с которыми постоянно приходится сталкиваться при научной редакции. Мы не ставили себе целью глобально разбирать принципы планирования эксперимента и статистической обработки результатов медико-биологических исследований. Наша цель – повышение методологического уровня статей и, таким образом, повышение престижа нашего журнала. В этом плане наибольшее внимание необходимо обратить на представлении статистической обработки данных, которая, как об этом свидетельствует анализ многих работ, опубликованных в крупных отечественных журналах, представляет существенные проблемы [2, 3, 4].

В первую очередь, хотелось бы остановиться на разделе "Материалы и методы", который должен присутствовать в любой оригинальной работе. Непременным компонентом этого раздела является описание конкретных методов статистической обработки (если речь не идет об описании серии клинических случаев). Широко используемые фразы типа: "Обработка производилась общепринятыми статистическими методами" – неприемлемы. Статистическая обработка является не вспомогательным, а основным инструментом, с помощью которого в медико-биологических исследованиях делаются те или иные предположения и выводы.

Следует учесть, что похожие названия могут иметь принципиально разные методы статистического анализа. Например, точный критерий Фишера может быть одно- и двусторонним, при анализе повторных изменений в одной и той же группе используется не привычный всем, а парный t-тест Стьюдента. Не говоря уже о том, что фраза типа "проводился корреляционный анализ" мало что говорит читателю, поскольку последний может подразумевать принципиально различные тесты: Пирсона, Спирмена и др.

Поскольку в большинстве случаев статистическая обработка не ограничивается использованием какого-либо одного метода, в разделе "Материалы и методы" рекомендуется поместить общее описание использованных тестов. Конкретные же методы статистического анализа целесообразно указывать по ходу изложения материала в разделе "Результаты". В большинстве же представляемых рукописей в тексте статьи присутствуют указания лишь на тот факт, что "р < 0,05" или "р < 0,01" и т.п.

Возвращаясь к разделу "Материалы и методы", в нем целесообразно указать, задачи, которые ставились при анализе данных, например [4]:

  • описание изучаемых параметров в группах (использована только описательная статистика)
  • парные групповые сравнения
  • исследование связей двух или нескольких параметров
  • анализ дожития
  • речь идет о проспективном клиническом исследовании, необходимо указать принципы разделения пациентов на группы, в частности, проводилась ли рандомизация, а если да, то каким методом. Далее, в случае контролируемого исследования, необходимо указать, проводился ли статистический анализ данных только тех больных, которые закончили лечение, или для всех включенных в исследование, поскольку при значительной доле выбывших может существенно измениться сопоставимость групп [5].
  • Следует уделить особо внимание проблеме множественных сравнений [1]. Дело в том, что чем больше статистических сопоставлений проводится на одних и тех же данных, тем больше вероятность того, что значение "р" (вероятность справедливости нулевой гипотезы) может быть ошибочно принято за отражающее истинную биологическую закономерность. Наиболее типичной ошибкой являются попарные сравнения в рамках 3-х и более групп с помощью t-теста Стьюдента (см. ниже). Следовательно, в "Материалах и методах" целесообразно отметить, приводятся ли в работе все сопоставления, которые выполнены в ходе анализа данных. В случае попарных сравнений необходимо указать на соблюдение соответствующих поправок (например, поправка Бонферрони, критерий Ньюмена-Кейлса и др.).
  • настоящее время для статистической обработки рекомендуется использование общеизвестных статистических компьютерные программы, поскольку ручной подсчет и использование самостоятельно разработанных программ не обеспечивает должного уровня точности и воспроизводимости. Таким образом, в разделе "Материалы и методы" необходимо указать конкретных программный пакет и его производителя. Например: Statistica (StatSoft, США), SPSS (SPSS Inc., США), STATGRAPHICS (Manugistic Inc., США) и т.д. Нередко удивляет упоминание авторами факта использования компьютерных программ наряду с ошибками в написании их названий ("Exell" или "STATGAF") и типичными некорректностями в использовании статистических методов. Очевидно, что сам факт использования компьютера, во-первых, уже не повышает престижа работы, во-вторых, не страхует от ошибок и не может их нивелировать.
  • описании лабораторных методов необходимо четко указать название коммерческих наборов для определения гормонов и привести нормативы гормональных показателей. Для инструментальных методов необходимо указать название и основные характеристика приборов (марку ультразвукового аппарата и т.д.).
  • Другой проблемой, на которой хотелось бы вкратце остановиться, является представление данных в разделе "Результаты".
  • Описание выборок медико-биологических исследованиях, как известно, зависит от характера распределения показателей. В большинстве направляемых в журнал работ данные представлены в виде "Х ±± х". Что авторы понимают под этим в большинстве случаев не указывается. При дальнейшем разбирательстве оказывается, что "Х" – почти всегда – это среднее арифметическое (M), а "х" – его стандартная ошибка "m".
  • таком варианте изложения (если авторы все-таки указали на это) возникает ряд проблем. Во-первых, среднее арифметическое адекватно характеризует выборку только в случае распределения близкого к нормальному. Оценка же нормальности распределения производится и описывается в единичных случаях. Еще более проблематично использование для описания выборки стандартной ошибки средней, поскольку эта ошибка характеризует само среднее арифметическое, но никак не разброс показателей в выборке (!), который наиболее интересен читателям. Другими словами, описание "M ±± m" не позволяет читателям оценить однородность выборки. В случае нормального распределения однородность выборки характеризует стандартное отклонение "SD".
  • Соблазн привести "m" вместо "SD" - очевиден. Во-первых, "m" по определению (!) меньше "SD". То есть, приводя "m", автор "демонстрирует" большую однородность выборки. С другой стороны, автор может столкнуться с ситуацией, когда "SD" окажется больше М. (Данные, например, будут выглядеть как 45 ±± 100 мл). Такая ситуация характерная для распределения отличающегося от нормального. Не зная, как описывать такую выборку, авторы очень часто указывают на то, что "M ±± m" и избегают заведомо некорректную ситуацию.
  • современным представлениям, большинство распределений медико-биологических параметров не являются нормальными. Особенно низка вероятность того, что нормальному распределению будут подчиняться показатели в малых выборках. Для описания распределений, не являющихся нормальными, используют медиану (Me) и интерквартальный размах, как правило в виде 25 и 75 процентилей. Например: 45 (22, 84), где 45 – Me, 22 – 25-ый, а 84 – 75 процентили.
  • Следует иметь в виду, что при округлении числовых данных, в средних значениях (или медиане) принято приводить не более, чем на один десятичный знак больше, чем в исходных данных, а в "SD" (или "Mo") - не более чем на 2 знака больше, чем в исходных данных. То есть, среднее артериальное давление должно описываться не как 80,8796 ±± 10,3321533 мм.рт.ст., а 80,9 ±± 10,33 мм.рт.ст., а лучше даже 81 ±± 10,3 мм.рт.ст. (Кроме того, очевидно, что сотые доли мм.рт.ст., при обсуждении артериального давления, абсолютно лишены клинического значения).
  • число наблюдений в исследовании мало (менее 20 – 15), т.е. речь идет о малой выборке, использование описательной статистики следует избегать. Как это не кажется абсурдным, но приходится сталкиваться со средним и стандартным отклонением по выборке из трех значений. Кончено, теоретически среднее арифметическое и стандартное отклонение может быть рассчитано и для двух значений, одно из которых "1", а другое "0", однако в любой из описанных ситуаций полученные показатели могу исказить представление о выборке. Таким образом, в малых выборках, которые анализируются достаточно часто, по возможности, целесообразно приводить первичные данные.
  • Похожая ситуация возникает при использовании процентов. Проценты используются для наглядного сопоставления различных по объему выборок. Если объем выборки больше 100 наблюдений, рекомендуется указывать процент не более, чем с одним десятичным знаком. Если объем выборки меньше 100, то проценты указываются только целыми числами.
  • заметить, что если выборка меньше 20, то проценты вообще не целесообразно использовать. В этой ситуации процент будет значительно больше, чем само число. (Получается описание типа: "50% больных выздоровело, а еще у одного процесс приобрел хроническое течение"). При малых выборках приводятся только абсолютные числа количества наблюдений. В целом, при приведении процентов необходимо указывать числители и знаменатели, с использованием которых проценты вычислены: "% ("n/N") [4].
  • мы уже указывали, задачей этой статьи является краткий разбор наиболее типичных неточностей, которые содержат статьи направляемые в редакцию журнала. В большей степени эта статья ориентирована на то, чтобы заострить внимание авторов на таком важном, если не сказать, на наиболее важном аспекте, как представление данных и их статистическая обработка. То есть мы не будем здесь описывать плюсы и минусы тех или иных методов статистической обработки. Но использование одного и наиболее излюбленного метода мы проанализируем. Речь идет о t-тесте Стьюдента.
  • показывает анализ отечественных публикаций [2] – этот метод для проверки гипотез используется подавляющем большинством авторов. Фактически t-тест затмил собой все многообразие методов, которое может предложить современная статистика. Наряду с этим, складывается ситуация, которую автор недавно переведенного на русский язык руководства по медицинской статистике С. Гланц [1] описывает следующим образом: "… Результаты многих биологических и медицинских работ основаны на неправильном использовании статистических методов и способны только ввести в заблуждение. Большинство ошибок связано с неправомерным использованием критерия Стьюдента". Этим мы хотим подчеркнуть, что проблема носит, в какой-то мере, интернациональный характер. В одном из опросов врачей-исследователей выяснилось, что большая часть из них не знает каковы условия использования этого столь популярного теста [2].
  • во-первых, t-тест используется только для сравнения количественных признаков, но не качественных. (Стандартная ситуация: в "Материалах и методах" указано, что "для статистической обработки использовался t-тест". После этого в тексте статьи идет описание на подобии: "распространенность явления "А" в основной группе 80%, а контрольной – 10%, р < 0,05. Получается, что при помощи t-теста сравнивались качественные данные). Для сопоставления качественных признаков используются совершенно другие методы ("Хи-квадрат", точный критерий Фишера и др.).
  • Во-вторых, t-тест (равно как и все другие параметрические методы) может быть использован только для сравнения групп с нормальным распределением. То есть, перед использованием t-теста необходимо с помощью ряда тестов (Колмогорова-Смирнова, Шапиро-Уилка и др.) удостовериться в нормальности распределения в группах.
  • В-третьих, t-тест правомерно использовать при равенстве дисперсий в выборках, то есть когда разброс данных в выборках примерно одинаков. Наконец, в-четвертых, t-тест предназначен для сравнения двух групп и не может (!) использоваться для попарного сравнения трех групп и более (см. выше). В последней ситуации из параметрических тестов может быть использован дисперсионный анализ (ANOVA), непараметрическим аналогом которого является критерий Крускала-Уоллиса.
  • достаточно жесткие ограничение в последние десятилетия делают все более популярным использование непараметрических тестов (критерии Манна-Уитни, Уилкоксона, Крускала-Уоллиса и др.). Эти тесты лишь немногим уступают по мощности параметрическим, но не требуют какого-либо типа распределения. Как показал анализ данных литературы, непараметрические методы в отечественных оригинальных работах используются очень редко [2].
  • заключении, хотелось бы остановиться на использовании в статьях статистических терминов. Если мы обратимся к упоминавшимся в начале этой статьи "Единым требованиям…" [6], в разделе "Статистика" в них указано: "Избегайте употребления статистических терминов, таких как "рандомизированный" (что означает случайный способ отбора), "значимый", "корреляции" и "выборка", для обозначения нестатистических понятий".
  • статьях приходящих в редакцию очень часто можно видеть либо использование статистических терминов (чаще "корреляция") вне какой-либо связи с проведенным статистическим анализов, либо подмену правильных статистических терминов теми, которые глобализуют простые статистические выкладки. Наиболее типичным примером последнего феномена является полное вытеснение термина "статистически значимый", различными вариантами слова "достоверный" или даже "высокодостоверный".
  • Совершенно очевидно, что если исследователю с помощью того или иного статистического метода удалось отвергнуть нулевую гипотезу об отсутствии различий между выборками с тем или иным уровнем значимости (например, всеми любимым р < 0,05) это свидетельствует лишь об одном: есть некое косвенное подтверждение того, что исследованные выборки отличаются (т.е., не принадлежат к одной большой выборке) по исследованному параметру. Поскольку эти различие было подтверждено статистическими методами, они являются "статистически значимыми". Статистическая значимость отличий не может свидетельствовать о неких достоверных клинических отличиях и вообще не несет никакой смысловой, в данном случае клинической нагрузки. То есть наличие статистически значимых отличий или статистически значимой корреляции не свидетельствует о прямой причинно-следственной, а особенно патогенетической связи явлений.
  • Причина, по которой русским эквивалентом английского термина "significance" стало не "статистически значимый", а "достоверный", во многом ясна. Часто авторы работ подсознательно или намеренно стремятся отождествить неслучайность выявленный различий (только об этом и свидетельствует "статистическая значимость") с некоей достоверностью, то есть, по сути, с биологической или патогенетической закономерностью.
  • Некорректных вариантов использования авторами статей слова "достоверность" применительно к статистическому анализу очень много: "…достоверность определялась по критерию Стьюдента", "...высокая достоверная корреляционная связь...", "…высоко достоверное увеличение…", "…статистически достоверно большими были…", "…коэффициенты достоверно отличались друг от друга...". Иногда можно встретить откровенный набор слов на подобии: "Вероятность случайности различий соответствует достоверности".
  • Наиболее ярким примером попытки глобализации полученных данных является попытка полной подмены статистического контекста клиническим. Так вместо термина "статистически значимые различия" можно встретить фразу "обнаружены статистически и клинически достоверные различия".
  • образом, замена термина "статистическая значимость" (два слова обязательно вместе) на "достоверность" применительно к статистическому анализу неприемлема.
  • Примером того, как статистическое понятие некорректно применяется вне контекста статистического анализа, является использования термина "корреляция" и "коррелирует". Очевидно, что в быту и в разговорной речи эти термины часто используют, чтобы просто обозначить взаимосвязь между явлениями. Такой вариант абсолютно неприемлем в научной литературе, поскольку термин "корреляция" имеет совершенно определенное значение, а сам корреляционный анализ является базовым методом проверки гипотез о взаимосвязи признаков в медико-биологических исследованиях. Например, авторы обнаружили, что некий феномен "А" встречается чаще, в группе с более тяжелым течением какого-то заболевания. Далее, среди прочих рассуждений, используется фраза типа: ""А" достоверно коррелирует с тяжестью заболевания". Возвращаясь назад, заметим, что корреляция может быть статистически значимая, при этом упоминать ее можно лишь на основании проведенного корреляционного анализа.
  • образом, при обсуждении любых понятий, как медицинских так и статистических, очень важно использовать как можно более точную и единообразную научную терминологию, так как даже расширение значения термина (не говоря уже о его подмене) неизбежно приводит к неоднозначности его понимания.

    ЛИТЕРАТУРА:

    1. Гланц С. Медико-биологическая статистика. Пер. с англ. - М., Практика. - 459с.
    2. Леонов В.П. // Междунар. Журн. Мед. Практики – 1998 – N 4. - С. 7 – 12.
    3. Леонов В.П. // Междунар. Журн. Мед. Практики – 1999 – N 4. - С. 7 – 19.
    4. Реброва О.Ю. // Междунар. Журн. Мед. Практики – 2000 – N 4. – C. 43 – 45.
    5. Флетчер Р., Флетчер С., Вагнер Э. Клиническая эпидемиология. Основы доказательной медицины. /Пер. с англ. - М.: Изд-во "Медиа-Сфера", 1998.
    6. International committee of medical journal editors. Uniform requirements for manuscripts submitted to biomedical journals. // Ann Intern Med – 1997 – Vol. 126 – P. 36 – 47.