<!DOCTYPE article
PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Publishing DTD v1.4 20190208//EN"
       "JATS-journalpublishing1.dtd">
<article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" article-type="research-article" dtd-version="1.4" xml:lang="en">
 <front>
  <journal-meta>
   <journal-id journal-id-type="publisher-id">Vestnik of Astrakhan State Technical University. Series: Management, computer science and informatics</journal-id>
   <journal-title-group>
    <journal-title xml:lang="en">Vestnik of Astrakhan State Technical University. Series: Management, computer science and informatics</journal-title>
    <trans-title-group xml:lang="ru">
     <trans-title>Вестник Астраханского государственного технического университета. Серия: Управление, вычислительная техника и информатика</trans-title>
    </trans-title-group>
   </journal-title-group>
   <issn publication-format="print">2072-9502</issn>
   <issn publication-format="online">2224-9761</issn>
  </journal-meta>
  <article-meta>
   <article-id pub-id-type="publisher-id">49922</article-id>
   <article-id pub-id-type="doi">10.24143/2073-5529-2022-2-87-96</article-id>
   <article-categories>
    <subj-group subj-group-type="toc-heading" xml:lang="ru">
     <subject>УПРАВЛЕНИЕ В СОЦИАЛЬНЫХ И ЭКОНОМИЧЕСКИХ СИСТЕМАХ</subject>
    </subj-group>
    <subj-group subj-group-type="toc-heading" xml:lang="en">
     <subject>SOCIAL AND ECONOMIC SYSTEMS MANAGEMENT</subject>
    </subj-group>
    <subj-group>
     <subject>УПРАВЛЕНИЕ В СОЦИАЛЬНЫХ И ЭКОНОМИЧЕСКИХ СИСТЕМАХ</subject>
    </subj-group>
   </article-categories>
   <title-group>
    <article-title xml:lang="en">Applying methods of twin comparing quantitative and binary samples  in biomedical information systems for decision making</article-title>
    <trans-title-group xml:lang="ru">
     <trans-title>Применение методов парного сравнения  количественных и бинарных выборок  в биомедицинских исследованиях  с целью принятия управленческих решений</trans-title>
    </trans-title-group>
   </title-group>
   <contrib-group content-type="authors">
    <contrib contrib-type="author">
     <name-alternatives>
      <name xml:lang="ru">
       <surname>Евельсон</surname>
       <given-names>Лев Игоревич</given-names>
      </name>
      <name xml:lang="en">
       <surname>Evelson</surname>
       <given-names>Lev Igorevich</given-names>
      </name>
     </name-alternatives>
     <bio xml:lang="ru">
      <p>кандидат технических наук;</p>
     </bio>
     <bio xml:lang="en">
      <p>candidate of technical sciences;</p>
     </bio>
     <xref ref-type="aff" rid="aff-1"/>
    </contrib>
    <contrib contrib-type="author">
     <name-alternatives>
      <name xml:lang="ru">
       <surname>Гегерь</surname>
       <given-names>Эмилия Владимировна</given-names>
      </name>
      <name xml:lang="en">
       <surname>Geger</surname>
       <given-names>Emiliya Vladimirovna</given-names>
      </name>
     </name-alternatives>
     <bio xml:lang="ru">
      <p>доктор биологических наук;</p>
     </bio>
     <bio xml:lang="en">
      <p>doctor of sciences in biology;</p>
     </bio>
     <xref ref-type="aff" rid="aff-2"/>
    </contrib>
    <contrib contrib-type="author">
     <name-alternatives>
      <name xml:lang="ru">
       <surname>Козлова</surname>
       <given-names>Ирина Романовна</given-names>
      </name>
      <name xml:lang="en">
       <surname>Kozlova</surname>
       <given-names>Irina Romanovna</given-names>
      </name>
     </name-alternatives>
     <email>kozlowa.iri2014@yandex.ru</email>
     <xref ref-type="aff" rid="aff-3"/>
    </contrib>
   </contrib-group>
   <aff-alternatives id="aff-1">
    <aff>
     <institution xml:lang="ru">&quot;Научно-инновационный центр информационных дистанционных технологий&quot;</institution>
     <country>Россия</country>
    </aff>
    <aff>
     <institution xml:lang="en">«Innovation Scientific Centre of Information and Remote Technologies» Limited Liability Company</institution>
     <country>Russian Federation</country>
    </aff>
   </aff-alternatives>
   <aff-alternatives id="aff-2">
    <aff>
     <institution xml:lang="ru">ГАУЗ «Брянский клинико- диагностический центр»</institution>
     <city>Брянск</city>
     <country>Россия</country>
    </aff>
    <aff>
     <institution xml:lang="en">Bryansk Clinical and Diagnostic center</institution>
     <city>Bryansk</city>
     <country>Russian Federation</country>
    </aff>
   </aff-alternatives>
   <aff-alternatives id="aff-3">
    <aff>
     <institution xml:lang="ru">Брянский государственный технический университет</institution>
    </aff>
    <aff>
     <institution xml:lang="en">Bryansk State Technical University</institution>
    </aff>
   </aff-alternatives>
   <pub-date publication-format="print" date-type="pub" iso-8601-date="2022-04-22T11:24:45+03:00">
    <day>22</day>
    <month>04</month>
    <year>2022</year>
   </pub-date>
   <pub-date publication-format="electronic" date-type="pub" iso-8601-date="2022-04-22T11:24:45+03:00">
    <day>22</day>
    <month>04</month>
    <year>2022</year>
   </pub-date>
   <issue>2</issue>
   <fpage>87</fpage>
   <lpage>96</lpage>
   <history>
    <date date-type="received" iso-8601-date="2022-01-26T00:00:00+03:00">
     <day>26</day>
     <month>01</month>
     <year>2022</year>
    </date>
    <date date-type="accepted" iso-8601-date="2022-04-01T00:00:00+03:00">
     <day>01</day>
     <month>04</month>
     <year>2022</year>
    </date>
   </history>
   <self-uri xlink:href="https://vestnik.astu.ru/en/nauka/article/49922/view">https://vestnik.astu.ru/en/nauka/article/49922/view</self-uri>
   <abstract xml:lang="ru">
    <p>Решение исследовательских задач в рамках создания единого цифрового контура в здравоохранении требует проведения исследований, реализуемых на основе деперсонализированных медицинских данных, накопленных в информационных системах лечебных учреждений. Описаны методы математической статистики, направленные на сравнение средних значений выборок двух видов: количественных и бинарных – с целью определения связи между показателями анализа крови и условиями труда. Выполнено сопоставление методов и результатов сравнения количественных и бинарных выборок. Показано, в каких случаях целесообразно использовать те или иные методы, когда есть возможность выбора между ними. Исследование проводилось с использованием медицинских данных, накопленных в медицинской информационной системе транзакционного типа. &#13;
В процессе подготовки к исследованию данные подвергались деперсонализации, очистке от неизбежных шумов и дефектов. Бинаризация значений показателей производилась путем сопоставления с известными границами интервала медицинской нормы. Разработана методика приведения выборок к однородности одновременно по признакам пола и возраста пациентов. Выявлены показатели лабораторных исследований, которые имеют статистически значимую взаимосвязь с условиями труда в рассматриваемых 4 группах. Эти группы соответствовали следующим комплексам условий труда: воздействие промышленных электромагнитных излучений, воздействие на рабочем месте шума и вибраций, условия работы в региональных офисных службах. Предлагаемые методы &#13;
и полученные результаты повысят точность выполняемых оценок риска профессиональной заболеваемости &#13;
и станут основой для исследования механизма влияния производственных факторов, что будет способствовать улучшению условий труда и снижению негативного воздействия вредных производственных факторов на здоровье человека. Они также будут способствовать совершенствованию анализа данных, накопленных в медицинских информационных системах, и принятию управленческих решений в здравоохранении</p>
   </abstract>
   <trans-abstract xml:lang="en">
    <p>Solving research problems within the framework of creating a single digital circuit in healthcare requires &#13;
a research conducted on the basis of depersonalized medical data stored in the information systems of medical institutions. There are described the methods of mathematical statistics aimed at comparing the average values of two types of samples: quantitative and binary in order to determine the relationship between blood test indicators and working conditions. Comparison of methods and results of comparison of quantitative and binary samples is made. The expediency of processing small structured samples taken out from the medical information system is substantiated. The study was conducted by using medical data stored in a transactional medical information system. During the preparation process, the data were depersonalized, cleaned from the inevitable noise and defects. Binarization of the values &#13;
of the indicators was performed by comparing them with the known boundaries of the interval of the medical norm. &#13;
A method was developed to bring the samples to uniformity simultaneously on the gender and age signs of the patients. There have been revealed the parameters of laboratory tests, which have a statistically significant relationship with working conditions identified for 4 groups under study. These groups were corresponding to the following work conditions complexes: influence of electromagnetic emanation, noise and vibrations, working conditions in regional office services. The proposed methods and received results will increase the accuracy of the performed risk assessments of occupational morbidity and become the base for studying the mechanism of the work conditions influencing the health. They will contribute to improvement of the analysis of the data collected in the medical information systems and management decision-making in healthcare.</p>
   </trans-abstract>
   <kwd-group xml:lang="ru">
    <kwd>математическая статистика</kwd>
    <kwd>анализ данных</kwd>
    <kwd>бинарные выборки</kwd>
    <kwd>медицинские информационные системы</kwd>
    <kwd>анализ крови</kwd>
    <kwd>пределы нормы</kwd>
   </kwd-group>
   <kwd-group xml:lang="en">
    <kwd>mathematical statistics</kwd>
    <kwd>data analysis</kwd>
    <kwd>binary sampling</kwd>
    <kwd>medical information systems</kwd>
    <kwd>blood test</kwd>
    <kwd>norm limits</kwd>
   </kwd-group>
  </article-meta>
 </front>
 <body>
  <p>ВведениеК настоящему времени в информационных системах (ИС) медицинских организаций накоплено уже много различных данных, связанных с медицинской помощью населению. В данный момент создается единая цифровая сеть, в цифровой контур вовлечено все больше лечебных учреждений, и цифровые технологии позволяют оказывать все более эффективные и персонализированные услуги. В создании единого цифрового контура в здравоохранении важную роль играет аналитика, основанная на первичной информации [1]. Медицинские информационные системы (МИС) оперируют большими объемами детализированной информации о здоровье пациента с помощью технологии оперативной обработки транзакций – OLTP (Online Transaction Processing – обработка транзакций в реальном времени) [2, 3]. Они предназначены для «цифровизации» непосредственно текущих информационных процессов учреждения. Данные, хранящиеся в МИС, как правило, для исследовательских задач не используются [4–6]. Однако они могут быть консолидированы, обезличены (деперсонализированы), очищены от неизбежных шумов и дефектов и выгружены в аналитические системы либо в электронные таблицы MS Excel для дальнейших исследований. Конкретные задачи, которые при этом ставятся, могут быть весьма разнообразны. При выборе методов их решения следует рационально подходить к учету особенностей методов, характеристик имеющихся доступных наборов данных для конкретной задачи и вычислительных ресурсов. Характерный объем анализируемых выборок медицинских данных для многих задач составляет порядка сотен или тысяч записей, поэтому целесообразно ориентироваться на методы, предназначенные для работы с относительно небольшими структурированными выборками. Подходы Big Data, часто используемые в мировой практике [7, 8], предназначены для работы с большими наборами данных, формирующихся из разнообразных по структуре и формату источников медицинской информации, представляющих собой неструктурированный набор файлов, таблиц, рисунков, графиков, их описаний, зачастую противоречивых выводов и суждений. Для малых и средних выборок технологии Big Data неэффективны. При применении классических методов математической статистики возникает ряд типичных проблем, которые «в чистой математике» считаются как бы заранее кем-то решенными, однако на практике их прихо-дится решать, и от этого существенно зависит достоверность результатов и выводов. В статье на важном для охраны труда практическом примере продемонстрированы некоторые типичные проблемы, показаны возможные пути и разработанные методики их решения с помощью нетрадиционного применения хорошо известных математических методов. Рассматривается проблема оценки статистической значимости зависимости между лабораторными показателями анализа крови и условиями труда пациента. Такая задача является частью общей актуальной проблемы оценки риска профессиональной заболеваемости. Ее решение играет существенную практическую роль в планировании мероприятий по охране труда, а также способствует развитию цифровых технологий в медицине для принятия управленческих решений на основе точных, своевременных и полных данных и адекватных аналитических инструментов. Цель работы – выявление важных особенностей и закономерностей практического применения различных известных методов математической статистики, направленных на исследование зависимости показателей крови от производственных факторов. Материалы и методы исследованияИсследования проводились в клинико-диагнос-тической лаборатории Брянского клинико-диагнос-тического центра, результаты были отражены в медицинской информационной системе транзакционного типа. В качестве первичного источника данных использовались результаты общего анализа крови (ОАК) и биохимические показатели крови у лиц, работа которых связана с вредными условиями труда – с воздействием электромагнитных излучений промышленной частоты (I группа, или ЭМИ, 108 чел.), с воздействием шума и вибраций (II группа, или ШиВ, 149 чел.). Также использовались результаты медицинских осмотров работников офисных служб (III группа, или ТАМ, 251 чел. и группа IV, или АДМ, 147 чел.). Биомедицинские исследования выполнены в строгом соответствии с законодательством Российской Федерации, ведомственными приказами и инструкциями [9]. В работе использовались методы математической статистики, направленные на сравнение средних значений выборок двух видов: количественных и бинарных. Количественные включали непосредственно чис-ловые действительные значения показателей ана-лиза крови. Бинарные (да/нет, 1/0 и т. д.) получа-ются с помощью операции сопоставления этих числовых значений с известным интервалом нор-мы (попадает/не попадает). Такой метод замены изначально количественных данных на бинарные для подобных задач описан в работах [10–12]. Метод сравнения бинарных выборок для общего случая основанный на распределении Бернулли и теореме Муавра – Лапласа, подробно описан, например, в [13]. Основная конечная формула для критерия значимости разницы:       ,     (1)где  и   – частоты появления бинарного значения «1» в первой и второй сравниваемых выборках, соответственно; n1 и n2 – объемы выборок. Для количественных выборок сравнение средних значений, а точнее оценка значимости разницы между ними при разных неизвестных дисперсиях, называется задачей Беренса – Фишера. Она не имеет точного теоретического решения, а для приближенного решения в данной работе использовался критерий Крамера – Уэлча [14], в котором фигурируют выборочные оценки дисперсий. Формула для расчетного значения критерия:      ,            (2)где  ;  ;  ,где   – несмещенная оценка дисперсии разности выборочных средних рассматриваемых выборок;   – несмещенная оценка дисперсии выборки 1;   – несмещенная оценка дисперсии выборки 2;   – выборочное среднее арифметическое значение элементов выборки 1;   – выборочное среднее арифметическое значение элементов выборки 2.До проведения анализа данных после консолидации была произведена очистка от дефектов и шумов, деперсонализация данных. В выборки включались значения различных показателей крови, а также бинарные значения пола (муж-ской/женский) и количественные значения возраста. Пол и возраст являются важными признаками, которые могут существенно влиять на заболеваемость и показатели крови. В ходе анализа поочередно лица каждой группы, подвергшиеся воздействию вредных производственных факторов (ЭМИ и ШиВ) либо являющиеся сотрудниками одной организации (ТАМ, АДМ), сравнивалась с объединенной группой, в которую входили лица остальных групп. Объединенные группы были следующие: «Все остальные, кроме группы ЭМИ» (ВОЭ), «Все остальные, кроме группы ШиВ» (ВОШ), «Все остальные, кроме группы ТАМ» (ВОТ) и «Все остальные, кроме группы АДМ» (ВОА). Прежде всего, пары групп ЭМИ и ВОЭ, ШиВ и ВОШ, ТАМ и ВОТ, АДМ и ВОА были проверены на однородность по признакам пола путем сравнения бинарных выборок по формуле (1) и возраста с помощью критерия Крамера–Уэлча по формуле (2). Все пары друг относительно друга оказались неоднородными по обоим этим признакам, поэтому далее была произведена корректировка выборок с целью добиться однородности. Разработанная методика корректировки основывалась на принципах рандомизации и эвристических способах. В соответствии с первым принципом корректировка осуществлялась таким образом, чтобы порядок записей, проверяемых на предмет удовлетворения критерию удаления, был случайным. В соответствии со вторым принципом корректировка сразу же прекращалась, как только оба (по полу и по воз-расту) расчетные значения критериев однородности становились меньше или равны критическим значениям, причем алгоритм корректировки был сформирован так, чтобы число удаляемых записей было минимальным.Выполнявшийся анализ данных был условно разделен на следующие этапы: 1. Консолидация обезличенных данных, выби-раемых из транзакционной МИС в соответствии с поставленной задачей анализа. 2. Очистка данных от дефектов и шумов [15]. 3. Для проведения каждого расчета, касающе-гося очередной группы, – операция слияния всех остальных групп в группу ВО (таким образом получались группы ВОЭ, ВОШ, ВОТ и ВОА).4. Корректировка групп ВО с целью получения выборок, однородных с изучаемой в данном расчете, одновременно по признакам пола и возраста. Для проверки однородности применялись критерии K и Q (формулы (1) и (2)). 5. Сравнение средних значений показателей крови с определением статистической значимости разницы по критерию Крамера–Уэлча, которое делалось поочередно для каждой из 4 исходных групп, сравниваемых с соответствующей объединенной и скорректированной группой ВО.6. Бинаризация показателей крови путем сопоставления их значений с интервалом нормы.7. Сравнение средних частот с определением статистической значимости разницы по критерию Q сравнения бинарных выборок для каждой из 4 исходных групп, сравниваемых с соответствующей объединенной и скорректированной группой ВО.Результаты исследования и их анализПо результатам расчетов были сформированы таблицы. В табл. 1 приведены данные, связанные с проверкой однородности групп по важным при-знакам пола и возраста. Таблица 1Table 1Результаты корректировки выборокResults of sample adjustment ГруппаОбъем исходнойвыборкиСредний возрастисходной выборкиПоловой состав исходной выборки (м/ж)KисхQисхОбъем скорректированной выборкиСредний возраст скорректированной выборкиПоловой состав скорректированной выборки (м/ж)KкорQкорЭМИ/ВОЭЭМИ10842,67106/21,0710,3110642,47106/01,940ВОЭ54743,94409/13840744,87407/0ШиВ/ВОШШиВ14951,76139/1011,126,7214951,76139/101,891,83ВОШ50641,37376/13013649,54118/18ТАМ/ВОТТАМ25141,08223/28–5,885,5525141,08223/28–1,861,93ВОТ40445,38292/11227742,65230/47АДМ/ВОААДМ14740,9147/100–3,89–14,9314740,9147/100–1,87–1,9ВОА50844,55468/407343,4533/40 Показан половой состав и средний возраст в исходных и скорректированных выборках, а также представлены полученные расчетные значения критериев сравнения средних значений возраста по критерию K и бинарных выборок по признаку пола по критерию Q – до корректировки и после. Как видно из столбцов Kисх и Qисх, исходные группы ЭМИ, ШиВ, ТАМ, АДМ оказались неоднородны с соответствующими группами ВО по одному из двух признаков, причем группы ШиВ, ТАМ и АДМ неоднородны сразу по обоим признакам, а группа ЭМИ – только по полу. В связи с этим производилась корректировка, результаты которой отражены в правой части табл. 1. Отметим: фактически корректировались только объединенные группы ВО. Группы ШиВ, ТАМ и АДМ не изменялись, а из исходной группы ЭМИ, в которой из 108 человек было только 2 женщины, были сразу удалены 2 соответствующие им записи. Из соответствующей группы ВОэ также сразу были удалены все записи, относящиеся к женщинам, вследствие чего при применении далее общего алгоритма корректировки однородность проверялась только по критерию К, а критерий Q при сравнении ЭМИ и ВОЭ равнялся 0. Изменение числа записей при корректировке группы ВО оказалось очень боль-шим (соответственно почти в 7 и 4 раза) для групп АДМ и ШиВ, в отличие от групп ЭМИ и ТАМ. Это обусловлено тем (как видно из данных табл. 1), что в исходных группах половой состав групп АДМ и возрастной состав группы ШиВ отличаются от остальных групп. В то же время целесообразно провести дополнительное исследование и оптимизацию предложенного алгоритма корректировки. В табл. 2–5 приводятся результаты сравнения средних количественных значений лабораторных показателей по критерию Крамера – Уэлча для исходных (до корректировки) и скорректированных выборок; приводятся результаты сравнения частот выхода за пределы нормы количественных значений лабораторных показателей для исходных (до корректировки) и скорректированных выборок, т. е. результаты сравнения бинарных выборок по критерию Q, при этом расчетные значения по критериям Крамера – Уэлча и Q приведены с учетом знака: наличие перед числом знака «–» означает, что среднее значение для рассматриваемой группы оказалось меньше, чем для совокупности остальных, а отсутствие знака (что подразумевает знак «+») говорит о том, что значение было больше. Таблица 2Table 2Результаты расчетов по критериям Крамера–Уэлча и Q для группы ЭМИResults of calculations by using the Cramer-Welch and Q criteria for EMR groupГруппаПоказатели ОАКБиохимияГемоглобинЛейкоцитыЛимфоцитыМоноцитыЭритроцитыТромбоцитыЭозинофилыГематокритСОЭОбщийхолестеринГлюкозаРезультаты расчета по критерию Крамера–УэлчаЭМИ–ВОисх–1,55–0,643,16,47–0,892,038,43–1,13–0,043,980,96ЭМИ–ВОкор–2,01–0,573,016,02–3,331,878,52–2,570,023,140,74Результаты расчета по критерию QЭМИ–ВОисх–1,55–0,6393,16,467–0,8862,038,43–1,13–0,043,970,96ЭМИ–ВОкор–2,01–0,573,016,02–3,321,878,52–2,570,023,140,74Сводные результаты для группы ЭМИЭМИ–ВОисх+ 00 0+ +– +0 00 +– +– 00 0+ ++ 0ЭМИ-ВОкор0 –0 00 +– +– –0 0– +– –0 00 ++ 0Таблица 3Table 3Результаты расчетов по критериям Крамера–Уэлча и Q для группы ШиВResults of calculations by using the Cramer-Welch and Q criteria for NV groupГруппаПоказатели ОАКБиохимияГемоглобинЛейкоцитыЛимфоцитыМоноцитыЭритроцитыТромбоцитыЭозинофилыГематокритСОЭОбщийхолестеринГлюкозаРезультаты расчета по критерию Крамера–УэлчаШиВ–ВОисх3,053,89–3,020,650,64–1,373,414,200–3,430,830,7ШиВ–ВОкор–0,092,33–2,281,72–1,150,873,331,8–2,62–0,93–1,63Результаты расчета по критерию QШиВ–ВОисх0,2391,25–0,73–1,57–0,24–0,71–2,132,68–1,87–0,171,83ШиВ–ВОкор–0,170,391–0,29–2,11–1,37–0,65–2,961,71–1,81–1,030,77Сводные результаты для группы ШиВШиВ-ВОисх+ 0+ 0– 00 00 00 0+ –+ +– 00 00 0ШиВ–ВОкор0 0+ 0– 00 –0 00 0+ –0 0– 00 00 0Таблица 4Table 4Результаты расчетов по критериям Крамера–Уэлча и Q для группы ТАМResults of calculations using the Cramer-Welch and Q criteria for TAM groupГруппаПоказатели ОАКБиохимияГемоглобинЛейкоцитыЛимфоцитыМоноцитыЭритроцитыТромбоцитыЭозинофилыГематокритСОЭОбщийхолестеринГлюкозаРезультаты расчета по критерию Крамера–УэлчаТАМ–ВОисх6,34–0,981,43,816,740,412,56,030,411,82–2,46ТАМ–ВОкор3,744–1,641,283,734,000,682,714,3271,811,82–1,9Результаты расчета по критерию QТАМ–ВОисх2,886–1,41-0,53–2,966,740,066–5,251,540,91,03–1,77ТАМ–ВОкор2,479–1,44–1,67–3,374,510,07–5,110,241,21,25–1,65Сводные результаты для группы ТАМТАМ–ВОисх+ +0 00 0+ –+ +0 0+ –+ 00 00 0– 0ТАМ–ВОкор+ +0 00 0+ –+ +0 0+ –+ 00 00 00 0Таблица 5Table 5Результаты расчетов по критериям Крамера–Уэлча и Q для группы АДМResults of calculations using the Cramer-Welch and Q criteria for ADM groupГруппаПоказатели ОАКБиохимияГемоглобинЛейкоцитыЛимфоцитыМоноцитыЭритроцитыТромбоцитыЭозинофилыГематокритСОЭОбщийхолестеринГлюкозаРезультаты расчета по критерию Крамера–УэлчаАДМ–ВОисх–12,5–3,31–1,192,08–8,331,23–0,91–5,532,9–6,65–0,57АДМ–ВОкор–3,33–1,51,81,69–2,410,11–0,77–0,76–0,94–2,630,99Результаты расчета по критерию QАДМ–ВОисх–2,350,66–1,79–1,98–6,86–1,80,95–3,980,66–4,11–1,29АДМ–ВОкор–0,830,35–0,820,65–1,71–2,162,7–0,25–0,27–3,390,224Сводные результаты для группы АДМАДМ–ВОисх– –– 00 0+ –– –0 00 0– –+ 0– –0 0АДМ–ВОкор– 00 00 00 0– 00 –0 +0 00 0– –0 0 Критические значения по обоим критериям (Крамера–Уэлча и Q) принимались во всех случаях равными 1,96, что соответствует уровню значимости α = 0,05 [14, 15]. Знаки «+» и «–» в сводных результатах расчетных значений критериев означают знак разности между средними в случае, если разница оказалась статистически значимой, а знак «0» говорит о ее незначимости.На рис. 1 изображена гистограмма по количе-ственному показателю «Эозинофилы», построенная для скорректированной группы ЭМИ (после удаления двух записей, относящихся к женщинам), а на рис. 2 – такая же гистограмма для группы ВОЭ(кор) (указаны средние арифметические значения и назна-ченные интервалы нормы).    Рис. 1. Гистограмма по количественному показателю «Эозинофилы» для группы ЭМИ(кор)Fig. 1. Histogram for the quantitative indicator “Eosinophils” for EMR(kor) group  Рис. 2. Гистограмма по количественному показателю «Эозинофилы» для группы ВОЭ(кор)Fig. 2. Histogram for the quantitative indicator “Eosinophils” for ВО(кор) group Ситуация по эозинофилам в группах ЭМИ(кор) и ВОЭ(кор) является примером того, что результаты сравнения (определения знака и значимости разницы) количественных и бинарных выборок показателей крови могут не только не совпадать, но даже быть противоположными. В этом примере просле-живается зависимость показателя «Эозинофилы» от воздействия ЭМИ. Судя по рис. 1 и 2, вид рас-пределения – как в ЭМИ, так и в ВОЭ – далек от нормального, т. е. важная предпосылка примене-ния традиционных параметрических методов здесь не выполняется. Значимость зависимости лабораторных показателей от условий труда, по нашему мнению, выражается наличием второго знака «+» во второй строке в секциях «Сводные результаты…» табл. 2–5, который отражает сравнение бинарных выборок по критерию Q для скорректированных выборок. Это связано с тем, что сравнение неоднородных по полу и возрасту исходных выборок нелегитимно, сравнение количественных выборок по критерию K не имеет прямой связи с заболеваемостью. В то же время наличие второго знака «–» вряд ли говорит о том, что производственные факторы положительно влияют на показатели крови. На рис. 3, 4 представлены гистограммы количественного показателя «Моноциты» для групп ТАМ(кор) и ВОТ(кор) соответственно.  Рис. 3. Гистограмма по количественному показателю «Моноциты» для группы ТАМ(кор)Fig. 3. Histogram for the quantitative indicator “Monocytes” for TAM (кор) group Рис. 4. Гистограмма по количественному показателю «Моноциты» для группы ВОТ(кор)Fig. 4. Histogram for the quantitative indicator “Monocytes” for ВОТ(кор) group  В результате анализа данных табл. 1–5 установлено, что в группе ЭМИ значимо больше выходов за пределы нормы обнаружено по лимфоцитам, моноцитам, эозинофилам и общему холестерину; в группе ШиВ таких показателей крови не нашлось; в группе ТАМ значимо больше выходов за пределы нормы обнаружено по гемоглобину; в группе АДМ – по эозинофилам. Сопоставление результатов по исходным и скорректированным выборкам при расчетах по К и Q (см. табл. 2–5) показывает, что по обоим критериям статистический вывод нигде не получался противоположным (не было случаев, когда по исходным выборкам получалось бы, что средние значения или частоты выхода за пределы нормы в рассматриваемой группе больше, а по скорректированным – наоборот, меньше). В то же время он не всегда получался одинаковым: по многим показателям в разных группах разница оказывалась значимой для исходных выборок и незначимой для скорректированных и наоборот. Это можно рассматривать как подтверждение необходимости приведения сравниваемых выборок к однородности по полу и возрасту. Сопоставление результатов по K и Q по скорректированным выборкам (первый и второй знаки во второй сводной строке в табл. 2–5) показывает следующее. По группе ЭМИ знак «+» не совпал нигде, знак «–» совпал для 2-х показателей, знак «0» – для 3-х показателей. По группе ШиВ знаки «+» и «–» не совпали нигде, знак «0» совпал для 6 показателей. По группе ТАМ знак «+» совпал для 2 показателей, знак «–» не совпал нигде, знак «0» совпал для 6 показателей. По группе АДМ знак «+» не совпал нигде, знак «–» совпал для 1 показателя, знак «0» – для 6 показателей. Таким образом, выводы по критериям K и Q намного чаще совпадали в случае незначимости разницы между выборками. Проиллюстрированные на рис. 1–4 примеры соответствуют случаям противоположных знаков в сводных строках табл. 2–5. Применение обоих критериев правомерно, при этом критерии дополняют друг друга. Критерий K позволяет выявить значимость влияния производственных факторов на среднее значение показателя крови, а критерий Q – оценить влияние производствен-ных факторов на частоту выхода за пределы нормы. Для комплексного исследования, направленного на изучение биологического механизма влияния производственных факторов на показатели крови, целесообразно применять оба эти критерия. Учитывая, что критерий K относится к параметрическим методам, представляется целесообразным исследовать, насколько законы распределения действительно близки к нормальному и, возможно, применить непараметрические методы сравнения распределений количественного показателя. Применение критерия Q требует бинаризации, результат которой зависит от принятого интервала нормы, поэтому для метода бинарных выборок целесообразно исследовать влияние границ нормы на получаемые в результате по критерию Q статистические выводы.ЗаключениеВ работе предложен метод анализа медицинских данных, накапливаемых в транзакционных информационных системах медицинских учреждений. Метод направлен на выявление зависимости показателей крови и заболеваемости от производственных факторов. Он основан на известной формуле определения статистической значимости разности частот сравниваемых бинарных выборок. Продемонстрировано новое применение ключевых математических формул на медицинских данных. Для количественных показателей крови, определяемых лабораторно, предлагается использовать алгоритм бинаризации, использующий сопоставление значения показателя с заранее известными границами интервала нормы. В результате исследования были выявлены показатели крови, для которых число выходов за пределы нормы значимо больше в рассматриваемой группе, чем в совокупности остальных. Показано, что для оценки значимости зависимости используемых для диагностики лабораторных показателей крови от условий труда метод бинарных выборок является более информативным с точки зрения оценки про-фессиональной заболеваемости, в то время как методы сравнения средних значений двух количественных выборок более информативны для изучения биологического механизма этой зависимости.Нами ведется разработка соответствующей программной оболочки, основу которой составит данный метод, и технологий наполнения контента, что позволит более эффективно управлять медицинскими данными с целью поддержки принятия врачебных решений.</p>
 </body>
 <back>
  <ref-list>
   <ref id="B1">
    <label>1.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Программа «Цифровая экономика РФ» (утв. 04.06.2019 г., протокол № 7). URL: https://digital.gov.ru/ru/activity/directions/858/ (дата обра-щения: 10.03.2021).</mixed-citation>
     <mixed-citation xml:lang="en">Programma «Cifrovaya ekonomika RF» (utv. 04.06.2019 g., protokol № 7). URL: https://digital.gov.ru/ru/activity/directions/858/ (data obra-scheniya: 10.03.2021).</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B2">
    <label>2.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Стефанова Н. А., Андронова И. В. Проблемы цифровизации сферы здравоохранения: российский и зарубежный опыт // Вестн. Самар. ун-та: экономика и управление. 2018. Т. 9. № 3. С. 31-35.</mixed-citation>
     <mixed-citation xml:lang="en">Stefanova N. A., Andronova I. V. Problemy cifrovizacii sfery zdravoohraneniya: rossiyskiy i zarubezhnyy opyt // Vestn. Samar. un-ta: ekonomika i upravlenie. 2018. T. 9. № 3. S. 31-35.</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B3">
    <label>3.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Белышев Д. В. Анализ методов хранения данных в современных медицинских информационных системах // Программные системы: теория и приложения. 2016. № 2 (29). С. 85-103.</mixed-citation>
     <mixed-citation xml:lang="en">Belyshev D. V. Analiz metodov hraneniya dannyh v sovremennyh medicinskih informacionnyh sistemah // Programmnye sistemy: teoriya i prilozheniya. 2016. № 2 (29). S. 85-103.</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B4">
    <label>4.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Новокрещенов В. С., Киселев С. Н. Современные методы хранения данных в медицинских информационных системах // Соврем. науч. исслед. и инновации. 2017. № 4. URL: http://web.snauka.ru/issues/2017/04/81796 (дата обращения: 25.03.2021).</mixed-citation>
     <mixed-citation xml:lang="en">Novokreschenov V. S., Kiselev S. N. Sovremennye metody hraneniya dannyh v medicinskih informacionnyh sistemah // Sovrem. nauch. issled. i innovacii. 2017. № 4. URL: http://web.snauka.ru/issues/2017/04/81796 (data obrascheniya: 25.03.2021).</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B5">
    <label>5.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Баранов А. А., Намазова-Баранова Л. С., Смирнов И. В., Девяткин Д. А., Шелманов А. О., Вишнёва Е. А., Антонова Е. В., Смирнов В. И. Методы и средства комплексного интеллектуального анализа медицинских данных // Тр. ИСА РАН. 2016. Т. 65. № 2. С. 81-93.</mixed-citation>
     <mixed-citation xml:lang="en">Baranov A. A., Namazova-Baranova L. S., Smirnov I. V., Devyatkin D. A., Shelmanov A. O., Vishneva E. A., Antonova E. V., Smirnov V. I. Metody i sredstva kompleksnogo intellektual'nogo analiza medicinskih dannyh // Tr. ISA RAN. 2016. T. 65. № 2. S. 81-93.</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B6">
    <label>6.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Карпов О. Э., Субботин С. А., Шишканов Д. В. Использование медицинских данных для создания систем поддержки принятия решений // Врач и информ. технологии. 2019. № 2. C. 11-18.</mixed-citation>
     <mixed-citation xml:lang="en">Karpov O. E., Subbotin S. A., Shishkanov D. V. Ispol'zovanie medicinskih dannyh dlya sozdaniya sistem podderzhki prinyatiya resheniy // Vrach i inform. tehnologii. 2019. № 2. C. 11-18.</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B7">
    <label>7.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Belle A., Thiagarajan R., Soroushmehr S. M., Navidi F., Beard D. A., Najarian K. Big Data Analytics in Healthcare // BioMed research international. 2015. V. 2015. P. 1-16.</mixed-citation>
     <mixed-citation xml:lang="en">Belle A., Thiagarajan R., Soroushmehr S. M., Navidi F., Beard D. A., Najarian K. Big Data Analytics in Healthcare // BioMed research international. 2015. V. 2015. P. 1-16.</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B8">
    <label>8.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Yanase J., Triantaphyllou E. The seven key challenges for the future of computer-aided diagnosis in medicine // Int. J. Med. Inform. 2019. V. 129. P. 413-422.</mixed-citation>
     <mixed-citation xml:lang="en">Yanase J., Triantaphyllou E. The seven key challenges for the future of computer-aided diagnosis in medicine // Int. J. Med. Inform. 2019. V. 129. P. 413-422.</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B9">
    <label>9.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">О персональных данных: Федеральный закон от 27 июля 2006 г. № 152-ФЗ (ред. от 24 апреля 2020 г.). URL: http://base.garant.ru/5635295/ (дата обращения: 30.01.2021).</mixed-citation>
     <mixed-citation xml:lang="en">O personal'nyh dannyh: Federal'nyy zakon ot 27 iyulya 2006 g. № 152-FZ (red. ot 24 aprelya 2020 g.). URL: http://base.garant.ru/5635295/ (data obrascheniya: 30.01.2021).</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B10">
    <label>10.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Geger E. V., Podvesovskii A. G., Kuzmin S. A., Tol-stenok V. P. Methods for the Intelligent Analysis of Biomedical Data // CEUR Workshop Proceedings of the 29th International Conference on Computer Graphics and Vision (GraphiCon 2019). 2019. V. 2485. P. 308-311.</mixed-citation>
     <mixed-citation xml:lang="en">Geger E. V., Podvesovskii A. G., Kuzmin S. A., Tol-stenok V. P. Methods for the Intelligent Analysis of Biomedical Data // CEUR Workshop Proceedings of the 29th International Conference on Computer Graphics and Vision (GraphiCon 2019). 2019. V. 2485. P. 308-311.</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B11">
    <label>11.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Гегерь Э. В., Козлова И. Р., Юркова О. Н., Евельсон Л. И. Методика сравнения бинарных выборок при анализе медицинских данных для принятия управленческих решений // XXI век: итоги прошлого и проблемы настоящего плюс. Информатика, вычислительная техника, управление. 2020. Т. 9. № 2 (50). С. 164-170.</mixed-citation>
     <mixed-citation xml:lang="en">Geger' E. V., Kozlova I. R., Yurkova O. N., Evel'son L. I. Metodika sravneniya binarnyh vyborok pri analize medicinskih dannyh dlya prinyatiya upravlencheskih resheniy // XXI vek: itogi proshlogo i problemy nastoyaschego plyus. Informatika, vychislitel'naya tehnika, upravlenie. 2020. T. 9. № 2 (50). S. 164-170.</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B12">
    <label>12.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Гегерь Э. В., Евельсон Л. И., Федоренко С. И., Козлова И. Р. Совершенствование методов обработки данных в информационных системах поддержки принятия управленческих решений // Соврем. наукоемкие технологии. 2019. № 12, ч. 2. С. 276-281.</mixed-citation>
     <mixed-citation xml:lang="en">Geger' E. V., Evel'son L. I., Fedorenko S. I., Kozlova I. R. Sovershenstvovanie metodov obrabotki dannyh v informacionnyh sistemah podderzhki prinyatiya upravlencheskih resheniy // Sovrem. naukoemkie tehnologii. 2019. № 12, ch. 2. S. 276-281.</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B13">
    <label>13.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Орлов А. И. Прикладная статистика. М.: Экзамен, 2006. 671 с.</mixed-citation>
     <mixed-citation xml:lang="en">Orlov A. I. Prikladnaya statistika. M.: Ekzamen, 2006. 671 s.</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B14">
    <label>14.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Кобзарь А. И. Прикладная математическая статистика. Для инженеров и научных работников. М.: Физматлит, 2006. 816 с.</mixed-citation>
     <mixed-citation xml:lang="en">Kobzar' A. I. Prikladnaya matematicheskaya statistika. Dlya inzhenerov i nauchnyh rabotnikov. M.: Fizmatlit, 2006. 816 s.</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B15">
    <label>15.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Mirkes E. M., Coats T. J., Levesley J., Gorban A. N. Handling missing data in large healthcare dataset: A case study of unknown trauma outcomes // Computers in Biology and Medicine. 2016. V. 75. P. 203-2016.</mixed-citation>
     <mixed-citation xml:lang="en">Mirkes E. M., Coats T. J., Levesley J., Gorban A. N. Handling missing data in large healthcare dataset: A case study of unknown trauma outcomes // Computers in Biology and Medicine. 2016. V. 75. P. 203-2016.</mixed-citation>
    </citation-alternatives>
   </ref>
  </ref-list>
 </back>
</article>
