Пол Ингрэм. ТАК ЛИ НАДЁЖНА ДИАГНОСТИКА ПРОБЛЕМ С БОЛЬЮ?

Nov 17, 2017 21:32

ТАК ЛИ НАДЁЖНА ДИАГНОСТИКА ПРОБЛЕМ С БОЛЬЮ?

Исследования надёжности показывают, что специалисты в области оздоровления не могут договориться во многих популярных предположениях о причинах ваших болей.

https://www.painscience.com/articles/reliability-studies.php

Автор: Paul Ingraham

Перевод: Струков Сергей

Многие проблемы с болью на удивление таинственны, и существует множество предположений о причинах боли у людей. Долгие годы ведутся дебаты о существовании проблемы. Например, на протяжении десятилетий «подвывихи» хиропрактиков были актуальной темой: реальны ли эти смещения позвоночника? Что если вас осмотрят пять разных хиропрактиков, но каждый найдёт разные места в вашем позвоночнике, которые предположительно «сместились» и нуждаются в коррекции?

Это исследования надёжности.

Исследования надёжности удивительны: хотя для большинства людей концепция неясна, они доступны и интересны, понятны для каждого и очень убедительны. Доказательства ненадёжности диагноза лишают смысла дальнейшие обсуждения. Если хиропрактики не могут договориться о подвывихах у одного пациента - и некоторые исследования показывают, что они не могут (1), - тогда обсуждение реальности подвывихов становится не столь интересным. Исследования надёжности с отрицательными результатами не обязательно что-либо доказывают (2), но наводят на серьёзные размышления, и могут быть удобным ярлыком для потребителей. Кто хочет диагноз, который, вероятно, будет противоречить каждому из пяти других терапевтов? Никто, естественно.

ЖАРГОН НАДЁЖНОСТИ

В учении о надёжности, мы говорим об «оценщиках». Оценщик - судья … чего-то. Тот, кто оценивает. Человек, который высказывается. Все специалисты в области здравоохранения - оценщики, когда они оценивают и диагностируют.
      Исследования надёжности - изучение «взаимной» достоверности или согласованности. Другими словами, сколько оценщиков согласны друг с другом? Не при встрече, об этом позже, а независимо. Они приходят к тем же выводам, когда самостоятельно оценивают одного и того же пациента?
      Существуют формулы, выражающие надёжность, как показатель, например, коэффициент ранговой корреляции. Для неспециалистов по статистике суть сводится к следующему: как часто специалисты в области здравоохранения могут прийти к аналогичным или похожим выводам о пациенте? Каждый раз? В половине случаев? Один раз из десяти? Когда-либо?

ДИАГНОСТИКА ОГНЕСТРЕЛЬНЫХ РАН СВЕРХНАДЁЖНА

Пример достаточно надёжной вещи: вам не нужно второго мнения для огнестрельной раны. Десять из десяти врачей согласятся: «Да, это определённо огнестрельная рана!» Ну, почти (3).

Это высокая межэкспертная надёжность.

Разумеется, множество диагностических задач намного сложнее. Люди сложны. Не всегда очевидно, что с ними не так. Вот почему иногда нужно второе и третье мнение. И низкая надёжность в сложных медицинских ситуациях совершенно нормальна. Пациенты достаточно быстро повышают низкую диагностическую надёжность, когда специалисты беспристрастно к ней относятся. Всё что должен сказать врач: «Я не уверен. Я не знаю. Возможно это так, а может и нет».

На что нужно обращать внимание - низкая надёжность в сочетании с высокой уверенностью: специалисты, утверждающие, что знают, но не согласные друг с другом при оценке. К сожалению, это распространённая картина в альтернативной медицине. И это мощный аргумент, что на самом деле «высокомерны» практикующие альтернативную медицину, а не настоящие врачи.

ИНТЕРПРЕТАЦИЯ БУЛЬКАНИЯ В ЖЕЛУДКЕ НЕНАДЁЖНА

Реальная история: моя пациентка, молодая женщина с хронической болью в шее и тошнотой, до этого посещала клинику «работающую с телом» по поводу своей проблемы. Три глубоко духовных массажиста возились с ней в течение трёх часов, по 100$ в час - каждый, в общем 900$ за визиты и (среди прочего) прокомментировали/перевели, что её желудок «пытается сообщить ей» о её психологических проблемах.

Мои глаза выкатились из орбит. А моя пациентка была очень напугана. Очевидно, если бы она попала к другому интерпретатору желудочных шумов по дороге ко мне, её желудочные сообщения были бы истолкованы по-другому.
      Это низкая взаимная надёжность.

11 ПРИМЕРОВ НЕНАДЁЖНЫХ ДИАГНОЗОВ В СКЕЛЕТНО-МЫШЕЧНОЙ МЕДИЦИНЕ

Существует множество распространённых диагнозов и теорий боли, страдающих от никчёмной взаимной надёжности. Вот несколько хороших примеров:

1. Краниосакральные терапевты утверждают, что могут обнаружить небольшие дефекты циркуляции вашей спинномозговой жидкости, но оценка надёжности показала их несогласие друг с другом в результатах (4, 5).

2. Хорошо известно, что при сканировании и рентгене часто случаются диагностические неточности, но ещё хуже несколько ложно позитивных результатов: в исследовании 2016 года пациента направили сделать десять МРТ в разных местах, и результаты оказались поразительно несогласованные. Радиологи обнаружили шестнадцать отличающихся признаков и в среднем сделали по десятку ошибок каждый (6). Пациенту проще было бы бросить дротики в перечень возможных результатов.

3. Многие виды терапевтов считают важным выравнивание передней части стопы, но исследование надёжности показало, что «обычный метод визуальной оценки деформаций передней части стопы во фронтальной плоскости ненадёжен и имеет сомнительное клиническое значение» (7). Я знаю одно из подобных выравнивателей: он буквально верит, что «всякая боль» вызвана одним суставом стопы, и что он может всякий раз это исправить. И вновь высокомерие (8).

4. Многие терапевты, натуропаты и другие самопровозглашённые целители используют своеобразное тестирование под названием «прикладная кинезиология», в которой простая оценка силы является основным диагностическим инструментом для всех проблем, но простое исследование показывает, что усилия практикующих «не полезнее случайного угадывания» - не только плохая надёжность, но и нулевая достоверность.

5. Пальпация при движениях применяется для выявления пациентов, которым может быть полезна терапия с манипуляциями на позвоночнике. Она особенно характерна для хиропрактиков. К сожалению, попытки обнаружить скованность суставов позвоночника и/или «пальпирование при движении» не прошло оценку в 2015 году: эксперты обнаружили разные «проблемы» у тех же пациентов (9).

6. Скрининг функциональными движениями (FMS) - набор тестов на силу и координацию. Несмотря на предназначение только для обнаружения отклонений, на практике популярная система выходит за рамки этих намерений и фактически применяется для диагностики биомеханических проблем и оправдания коррекционной
тренировки или лечения. К сожалению, FMS не только ненадёжна для прогнозирования травм, но и все предсказания FMS могут быть «продуктом поверхностной оценки» (10).

7. Рефлексотерапевты, применяющие традиционную китайскую акупунктуру не смогли прийти к согласию о проблемах пациентов с болью в спине. В шести случаях оценки практикующими в один и тот же день, двадцать диагнозов использовали не менее раза - это очень много. Даже «неточная наука», вероятно, точнее, чем это (11).

8. «Триггерные точки (узлы в мышцах), предлагаются, как важная причина скелетно-мышечной боли», но спустя несколько десятилетий мы по-прежнему не знаем, могут ли специалисты надёжно диагностировать триггерные точки - научные данные ограничены и неоднозначны (12, 13, 14). Почти несомненно, что определение триггерных точек по ощущениям технически ненадёжно, но вероятно это на самом деле не камень преткновения (15).

9  . «Нестабильность core» - чрезвычайно популярная вещь, обвиняемая в боли в спине. Тем не менее, вы не сможете достаточно хорошо устранять нестабильность core, если не способны диагностировать её как проблему. Оценка тестирования нестабильности core оказалась явным провалом: «при использовании 4-балльной визуальной оценки, 6 клинических тестов стабильности core оказались ненадёжными» (16). Это немного проблематично для идеи core.

10. Вам когда-нибудь говорили о плохом поведении плечевого пояса? «Дискинезия плеча» - так называются на птичьем языке «плохие движения плеча». К сожалению, терапевты не могут прийти к соглашению по поводу этого диагноза, а обзор в British Journal of Sports Medicine 2013 года осудил его: «нет тестов для физической оценки лопатки, полезных при дифференциальной диагностике патологии плеча» (17).

11. Удивительно, но у специалистов обычно возникают проблемы с решением вопроса о плоском или высоком своде стопы (18, 19).

И так далее и тому подобное. В течение месяцев и лет, я добавлю другие интересные примеры в этот перечень, поскольку они происходят со мной. Для контраста, множество процедур диагностики и тестирования - надёжны, например, оценка амплитуды движений у людей с замороженным плечом (20).

НЕОБЫЧНЫЙ ПРИМЕР: ДИАГНОСТИКА КАМЕРТОНОМ!

Предполагают, если приложить вибрирующий камертон к стрессовому перелому, то это вызовет боль. Вот анализ исследований (21). Начиная с 1950-х годов пытались определить полезность камертона (и ультразвука) для поиска переломов нижних конечностей. Ни один из методов не оказался точным. Вместо этого «необходимо продолжать использовать радиологическую визуализацию». К счастью, (ради изящной причудливости идеи), они не говорят, что камертон на самом деле не работает … просто он ненадёжен для подтверждения, вариант «очевидного» вывода.

НЕНАДЁЖНАЯ НАУКА О НАДЁЖНОСТИ

Традиционно надёжность вычисляется, как процент согласия. Например, если вы и я пытаемся диагностировать что-либо и соглашаемся в половине случаев, это согласие на 50%. Но это не очень привлекательный способ измерения, потому что не учитывает такие вещи, как угадывание, удачу или предвзятость. Что если мы согласны, потому что оба воображаем одну и ту же фигню? Это сложно!

Введите каппа Коэна (к) «более надёжную меру, чем простой расчёт процента согласия, поскольку учитывает возможность случайного согласия» (Хотя не освобождает от предвзятости!). Подобно оклеветанному p-значению, не всем нравится коэффициент каппа. Но, несмотря на обычные споры экспертов - статистика никогда не бывает простой - каппа Коэна многие годы более или менее стандартна.

Оценки от -1,0 до +1,0, с нулевой оценкой, представляющей шансы при броске монеты. Итак, насколько хороша оценка, допустим, 0,5? Как мы переведём эту оценку? В 1977 году, Ландис и Кох предложили некоторые описательные слова, которые были

чистым мнением (22). Они широко цитировались и использовались даже в науке, если не было чёткой альтернативы. Итак, слово науке.

Словесная интерпретация значений коэффициента каппа

Словесная интерпретация значений коэффициента каппа

Каппа
Значение

<0,2
Плохо

0,2 - 0,4
Несущественно

0,4 - 0,6
Средне

0,6 - 0,8
Существенно

0,8 - 1,0
Почти идеально

С учением о надёжности есть множество проблем. Вы даже можете сказать, что она ненадёжна! Например, шанс согласия на случайное падение для кого-то предвзят. И что завышает коэффициент каппа - очень обманчивый результат (23).

Но даже показатель «плохо», по-прежнему более согласован, чем шанс, а отличное согласие почти никогда не достигается при оценке всего, что требует тестирования. Диагностика трудна!

ПРИМЕЧАНИЯ

1. French SD, Green S, Forbes A. Reliability of chiropractic methods commonly used to detect manipulable lesions in patients with chronic low-back pain. J Manipulative Physiol Ther. 2000 May;23(4):231-8. Мне нравятся исследования надёжности, и это одно из моих любимых. Трём хиропрактикам предложили оценить 20 пациентов с хронической болью в пояснице, с использованием полного спектра диагностических методов хиропрактики. Невероятно, но при оценке лишь нескольких поясничных суставов, хиропрактики согласились с необходимостью коррекции лишь в четверти случаев (едва ли лучше гадания). Это чрезмерное упрощение, но верное по сути: они не во многом не согласились, а исследователи пришли к выводу, что все диагностические процедуры хиропрактиков «не должны рассматриваться… как надёжная информация, относительно направленности процедур манипуляции».

2. Возможно, проблемы в дизайне теста или обучении и навыках тестирующих, а не с тем, что они ищут.

3. В первой главе своей превосходной книги «Осложнения: заметки хирурга о несовершенной науке», хирург Атул Гаванде (Atul Gawande) рассказывает увлекательную историю о потерянной пуле. Одному ребёнку выстрелили в зад. Входная рана была классической. Внутреннее кровотечение. Выходного отверстия нет. Ситуация критическая, и они вскрыли рану чтобы извлечь пулю, но … пули не нашли. Его подстрелили, или нет? Это никогда не объяснить.

4. Wirth-Pattullo V, Hayes KW. Interrater reliability of craniosacral rate measurements and their relationship with subjects' and examiners' heart and respiratory rate measurements. Phys Ther. 1994 Oct;74(10):908-16; discussion 917-20.
      Первая оценка заявления краниосакральных терапевтов (КСТ) о способности пальпировать изменения циклических движений черепа. Авторы пришли к выводу: «терапевты не смогли надёжно это измерить», а «ошибка измерения достаточно значительна, чтобы сделать многие клинические решения потенциально ошибочными». Также учёные поставили под сомнение наличие краниосакральных движений и предположили, что КСТ лишь придумывает такие движения. Это вызывало экстренный и решительный протест со стороны Upledger.

5. Moran RW, Gibbons P. Intraexaminer and interexaminer reliability for palpation of the cranial rhythmic impulse at the head and sacrum. J Manipulative Physiol Ther. 2001 Mar-Apr;24(3):183-190.
      «Пальпация ритмичной пульсации черепа - фундаментальный клинический навык, применяемый в диагностике и лечении» при краниосакральной терапии. Поэтому исследователи сравнили методы диагностики «двух зарегистрированных остеопатов, оба с последипломной подготовкой в диагностике и лечении, с применением черепных методов, пальпировавших 11 нормальных здоровых людей». К сожалению, они во многом не согласились: «взаимная надёжность при одновременной пальпации головы и крестца оказалось плохой-несуществующей». Выделено мной.

6. Herzog R, Elgort DR, Flanders AE, Moley PJ. Variability in diagnostic error rates of 10 MRI centers performing lumbar spine MRI examinations on the same patient within a 3-week period. Spine J. 2016.
      Люди в основном полагают, что МРТ - надёжная технология, но, если вы отправите одного и того же пациента за десятью разными МРТ, с интерпретацией десятью разными радиологами из различных учреждений, очевидно вы получите десять заметно отличающихся объяснений МРТ симптомов. Волонтёр 63 лет с ишиасом позволил себе многократно повторить оценку для науки. Радиологи не знали, что их проверяют и собрали 49 разных «находок». Шестнадцать оказались уникальными; ни одна из них не обнаруживалась в остальных 10 отчётах, и лишь одна обнаруживалась в 9 из 10 случаев. В среднем, каждый радиолог допустил около десяти ошибок, наблюдая один или два признака, которых там не было, и упустив около десяти, которые были. Это много ошибок, и мало надёжности. Авторы абсолютно убеждены, что некоторые провайдеры МРТ лучше других, и это по-видимому верно, но также вызывает вопрос: надёжна ли МРТ?
      (Также можно прочитать моё неформальное описание этого исследования, которое включает в себя удивительный личный пример ошибки с визуализацией).

7. Cornwall MW, McPoil TG, Fishco WD, et al. Reliability of visual measurement of forefoot alignment. Foot Ankle Int. 2004 Oct;25(10):745-8.
      Это одно из забавных исследований, в которых клиницистов ловят на неспособности аналогичной оценки структурной проблемы. Трёх врачей попросили «оценить положение передней части стоп», но согласованности не получили. Из резюме: «… распространённый метод визуальной оценки деформации передней части стопы ненадёжен и имеет сомнительную клиническую ценность».

8. The Not-So-Humble Healer: Cocky theories about the cause of pain are waaaay too common in massage, chiropractic, and physical therapy

9. Walker BF, Koppenhaver SL, Stomski NJ, Hebert JJ. Interrater Reliability of Motion Palpation in the Thoracic Spine. Evidence-Based Complementary and Alternative Medicine. 2015;2015:6.
      Два эксперта, применяя стандартные методы пальпации при движениях грудного отдела позвоночника, не могли прийти к согласию о расположении скованности сустава или боли у 25 пациентов. Упрощение диагностической задачи не улучшило ситуацию. Поэтому, «Результирующая межэкспертная надёжность при ограничении движений и боли оказалась плохой». Это не очень хорошие новости для мануальных терапевтов, применяющих пальпацию при движении для выявления пациентов, которым может быть полезны лечебные манипуляции с позвоночником.
      В исследование привлекали лишь двух экспертов, что может быть серьёзным недостатком. Больше оценивающих, разумеется, лучше. Тем не менее, даже небольшая выборка данных предоставляет значимую информацию при достаточном размере эффекта (см. Дурацкий размер эффекта), что вероятно здесь есть. Даже у двух экспертов результаты должны быть аналогичными, за исключением полной некомпетентности кого-либо. Если они значительно отличаются друг от друга, большее количество экспертов, вероятно, этого не изменит.

10. Whiteside D, Deneweth JM, Pohorence MA, et al. Grading the Functional Movement Screen™: A Comparison of Manual (Real-Time) and Objective Methods. J Strength Cond Res. 2014 Aug. Результаты не удивляют, поскольку FMS не учитывает «несколько факторов, способствующих травмам опорно-двигательного аппарата». Эти проблемы нужно решить «до того, как FMS можно будет считать надёжным инструментом для скрининга травм».

11. Hogeboom CJ, Sherman KJ, Cherkin DC. Variation in diagnosis and treatment of chronic low back pain by traditional Chinese medicine acupuncturists. Complement Ther Med. 2001 Sep;9(3):154-66.
      Диагностика рефлексотерапевтов (акупунктура) по-видимому ненадёжна. В этом исследовании, «шесть специалистов по акупунктуре оценивали одних и тех же шестерых пациентов в один день» и обнаружили «плохую согласованность между специалистами в отношении деталей диагноза и других точек акупунктуры». В исследовании пришли к выводу: «диагностика в акупунктуре и рекомендации по лечению отдельных пациентов широко варьирует между практикующими».

12. Myburgh C, Larsen AH, Hartvigsen J. A systematic, critical review of manual palpation for identifying myofascial trigger points: evidence and clinical significance. Arch Phys Med Rehabil. 2008 Jun;89(6):1169-76.
      В обзоре 2008 года о надёжности диагностики триггерных точек сделали громкий вывод, что вопрос просто не изучен должным образом. Авторы призывают клиницистов и учёных «перейти к более простым, глобальным оценкам пациентов». Перевожу: «Здесь ничего не нашли, движемся дальше!» К аналогичному выводу пришли в обзоре 2009 года Lucas et al.

13. Lucas N, Macaskill P, Irwig L, Moran R, Bogduk N. Reliability of physical examination for diagnosis of myofascial trigger points: a systematic review of the literature. Clinical Journal of Pain. 2009 Jan;25(1):80-9.
      К сожалению, эта статья - спутанный и беспорядочный обзор состояния искусства диагностики триггерных точек на 2009 год. В работе объясняется, что прошлые исследования не «сообщили о надёжности диагностики триггерных точек, согласно предлагаемым в настоящее время критериям». Также авторы объясняют, что «нет приемлемого стандарта диагностики триггерных точек, и данные о надёжности физической оценки триггерных точек противоречивы». Принимая во внимание эти условия, неудивителен разочаровывающий вывод исследования: «В настоящее время, физическое обследование нельзя рекомендовать в качестве надёжной оценки при диагностике триггерных точек». По сути, это тот же вывод, что и в обзоре предыдущего года Myburgh et al.

14. Rathbone AT, Grosman-Rimon L, Kumbhare DA. Interrater Agreement of Manual Palpation for Identification of Myofascial Trigger Points: A Systematic Review and Meta-Analysis. Clin J Pain. 2017 Aug;33(8):715-729.
      Этот обзор называется мета-анализом, что странно, так как «лишь одно исследование соответствовало критериями межэкспертной надёжности и поэтому мета-анализ не выполняли». Таким образом, это был просто традиционный обзор 6 исследований, насколько согласуются мнения разных экспертов о местонахождении триггерных точек. Без адекватных данных для статистического обобщения, авторы должны были «оценить» коэффициент согласия к = 0,452 - довольно точная оценка! Из критериев, применяемых для определения триггерных точек, наиболее надёжным были локализованная чувствительность (0,68) и распознавание боли (0,57). На самом деле, это достойные оценки надёжности, но авторы сделали вывод: «мануальная пальпация ненадёжна для идентификации триггерных точек в мышцах».

15. На основании коэффициентов каппа от Rathbone (14), их отрицательные выводы технически правильны, но также обманчивы: большинство попыток выявить патологии в организме технически «ненадёжны», значительно ниже оценки к=1,0 (идеальноe согласие), но всё же существенно лучше, чем к=0 (согласие, как при броске монеты). Мой вывод - обзор в основном неубедителен, но фактически обнаружил доказательства, что надёжность триггерных точек, вероятно, не так уж плоха по сравнению с большинством сопоставимых процедур оценки.
      Поэтому я обобщил доказательства, как «неоднозначные». Трудно предугадать.

16. Weir A, Darby J, Inklaar H, et al. Core stability: inter- and intraobserver reliability of 6 clinical tests. Clin J Sport Med. 2010 Jan;20(1):34-8.

17. Wright AA, Wassinger CA, Frank M, Michener LA, Hegedus EJ. Diagnostic accuracy of scapular physical examination tests for shoulder disorders: a systematic review. Br J Sports Med. 2013 Sep;47(14):886-92.

18. Sensiba PR, Coffey MJ, Williams NE, Mariscalco M, Laughlin RT. Inter- and intraobserver reliability in the radiographic evaluation of adult flatfoot deformity. Foot Ankle Int. 2010 Feb;31(2):141-5. Хоть это и не страшно, даже рентгеновские снимки одной и той же ноги оцениваются по-разному: отлично для одних измерений и просто хорошо для других. Тем не менее, когда радиолог оценивает рентген, вы надеетесь, что с достаточной надёжностью. Проблема в некоторых врачах (см. следующее примечание).

19. Это небольшой обман: у меня нет надлежащего исследования надёжности для подтверждения, просто профессиональная история: когда я работал массажистом, люди часто приходили ко мне в кабинет с так называемой «плоской стопой», убеждённые предыдущим массажистом (или хиропрактиком) что у них «нет свода слева» (или с другим мотивационным преувеличением) … тогда как на самом деле, я всё ещё легко мог просунуть свой палец под свод до первого сустава. Это то, что вы просто не сможете сделать у человека с действительно плоской стопой. Сходным образом, хотя и не столь часто, я видел людей, которых другой профессионал обвинял в чрезмерной высоте свода, когда на самом деле, как по мне, у них не было ничего похожего. Так что относитесь к подобным диагнозам скептически.

20. Tveitå EK, Ekeberg OM, Juel NG, Bautz-Holter E. Range of shoulder motion in patients with adhesive capsulitis; intra-tester reproducibility is acceptable for group comparisons. BMC Musculoskelet Disord. 2008;9:49.
      «Приемлемая» диагностическая надёжность амплитуды движения плеча у пациентов с замороженным плечом.

21. Schneiders AG, Sullivan SJ, Hendrick PA, et al. The Ability of Clinical Tests to Diagnose Stress Fractures: A Systematic Review and Meta-analysis. J Orthop Sports Phys Ther. 2012;42(9):760-71.

22. Landis JR, Koch GG. The measurement of observer agreement for categorical data. Biometrics. 1977 Mar;33(1):159-74.

23. Walker 2015, op. cit.

В своём исследовании пальпации движений позвоночника Walker et al, объяснили, где существует риск смещения:
      Тем не менее, при интерпретации коэффициента каппа, необходимо понимать, что смещение и распространённость могут влиять на оценку согласия. Смещение происходит, при рассогласованности в пропорции суждений «да» и «нет», между каждым из оценщиков. По мере увеличения смещения, вероятность случайного согласия уменьшается, что приводит к инфляции коэффициента каппа.

очень интересно, Пол Ингрэм, рекомендую

Previous post Next post
Up