Публикации

    Важное на форуме

Длительность ПДА у онкологических больных

Гипернатриемия

Летальный исход как реакция на лидокаин

Токсический эффект от передозировки бупивакаина


 
 

<<< вернуться на главную страницу раздела

Инструмент для автоматического поиска взаимозависимостей между
факторами в больших массивах данных

А. Г. ПАВЛОВ

 

В этом месяце мы продолжаем развивать аналитические инструменты нашего сайта и собираемся рассказать о двух новых программных компонентах, которые мы создали в поддержку специалистам, ведущим свои научные изыскания.
На настоящий момент эти инструменты достаточно уникальны и не имеют удобных в использовании аналогов, входящих в популярные пакеты стат-обработки. Тем более, нам не известно о существовании on-line версий подобных инструментов.
Как обычно, мы будем демонстрировать особенности этих программ на примере обработки массива данных, находящегося на нашем сайте в режиме открытого доступа. Постоянные наши читатели уже знают, что речь идет о массиве мультицентрового исследования по регионарной анестезии. При этом мы, как обычно, готовы подключать эти инструменты к массивам наших пользователей, сотрудничающих с нашим аналитическим отделом на ниве анализа клинических данных.
В настоящий момент оба созданных инструмента открыты для ознакомления, но сегодня речь пойдет о первом из них - о программе автоматического поиска взаимозависимостей между факторами в больших массивах данных.
Наверное, каждый исследователь, пытающийся спланировать сбор и обработку клинических данных, встает перед выбором, какое количество параметров и признаков включить в свой протокол. С одной стороны, всегда хочется, чтобы это количество было максимальным – вдруг при статистической обработке удастся выявить закономерности, о которых в настоящий момент никто не подозревает. С другой стороны – при увеличении количества исследуемых признаков существенно увеличиваются затраты труда на сбор и анализ данных. В этой публикации мы оставим без внимания первую часть затрат и обратимся к задаче математической обработки уже собранного массива.
Если мы рассматриваем некоторый параметр, обладающий свойством меняться при переходе от одного пациента из нашей выборки к другому, то нам обычно интересно, какой вклад в изменчивость этого параметра вносит динамика некого другого параметра, исследуемого в нашей работе. Для оценки этого вклада в изменчивость традиционно используется расчет коэффициента корреляции. При этом, если у вас собрано 10 параметров, то анализ всех возможных пар потребует 45 сеансов вычисления корреляционных коэффициентов. С ростом числа параметров объем работы будет расти как снежный ком. Несложный подсчет показывает, что для 20 параметров потребуется уже 190 сеансов вычислений, что уже слишком трудоемко, даже при использовании популярных пакетов статистического анализа.
Именно для таких ситуаций мы и разработали наш очередной программный инструмент.
Он позволяет проанализировать подключенный к нему массив за считанные секунды и выявить все потенциальные зависимости.
Посмотреть, как работает этот компонент анализа, вы можете, набрав в своем браузере адрес:
http://www.critical.ru/stats/
Напоминаем вам, что все наши on-line инструменты, находящиеся на сайте Expert-Critical, корректно работают только с браузерами Mozilla-Firefox.
При правильно набранном адресе вы увидите в левой панели список доступных на настоящий момент инструментов. Сегодня в этом списке открыты пункты «Зависимости между параметрами» и «Выбор точки разбиения». Ко второму инструменту мы обратимся в следующей нашей публикации, а сейчас мы предлагаем выбрать пункт «Зависимости между параметрами».

При этом справа от списка, в рабочей области экрана появится окно «Установка ограничений» и в нем – два слайдера-регулятора. Первый из них задает минимальный поисковый порог. Двигая его, вы задаете пороговый коэффициент корреляции, на который программа будет ориентироваться при анализе массива. При этом она будет отсеивать пары параметров, зависимость между которыми не достигает порога, который вы для себя определяете как клинически-значимый. Проанализировав все возможные комбинации в вашей выборке, программа выдаст таблицу, содержащую список пар параметров, зависимости между которыми характеризуются коэффициентами корреляции, превышающими заданный вами порог. Для предварительной оценки массива мы рекомендуем вам задать поисковый порог 0.5:

Часто в своем исследовании вы можете быть ограничены в доступности того или иного метода диагностики. Например, вы не можете провести ультразвуковую допплерографию всем пациентам. В этом случае возможен вариант, когда в массиве присутствует слишком мало значений какого-либо показателя. При этом рассчитывать коэффициент корреляции для массива из 10 точек не совсем корректно. Для исключения из анализа подобных параметров с недостаточным количеством значений существует регулятор «Минимальное число рядов». Задайте с его помощью минимальный объем выборки, при котором вы будете считать ее достаточно репрезентативной для выявления взаимосвязей. Для предварительной оценки массива мы рекомендуем вам задать поисковый порог в 50 рядов.

Теперь остается только нажать кнопку «Рассчитать».
После этого через некоторое время на экране появится таблица, в которой будут отражены все пары параметров, взаимосвязь между которыми удовлетворяет заданным критериям анализа.

Таким образом, за несколько секунд этот инструмент позволяет выполнить работу, на которую иногда можно потратить не одну неделю.
Результаты, которые демонстрирует система на массиве мультицентрового исследования, нам хотелось бы прокомментировать в отдельной публикации.
Но в заключении обязательно необходимо подчеркнуть, что представленный инструмент является поисковым и он служит для предварительного анализа массива.
Он не обеспечивает оценки корректности рассчитанных коэффициентов корреляции на основании анализа законов распределения исследуемых величин.
Найденные с помощью этого инструмента пары параметров, подозреваемые во взаимовлиянии, необходимо проанализировать более внимательно с учетом их законов распределения. Вполне вероятно, что именно такой инструмент дополнительного анализа появится следующим на нашем сайте.