Эталонные медицинские датасеты (MosMedData) для независимой внешней оценки алгоритмов на основе искусственного интеллекта в диагностике

Обложка

Цитировать

Аннотация

В статье описывается оригинальный подход к формированию аннотированных медицинских датасетов для проверки диагностических решений, основанных на технологиях искусственного интеллекта. Описаны 4 этапа формирования датасета ― планирование, отбор исходных данных, разметка и верификация, документирование. Приведены примеры созданных по описанной методике датасетов. Методика является масштабируемой и универсальной, а значит, может быть использована в других областях медицины и здравоохранения, которые подлежат автоматизации и развитию с помощью технологий искусственного интеллекта и технологий больших данных.

Об авторах

Николай Александрович Павлов

Научно-практический клинический центр диагностики и телемедицинских технологий Департамента здравоохранения г. Москвы

Автор, ответственный за переписку.
Email: n.pavlov@npcmr.ru
ORCID iD: 0000-0002-4309-1868
SPIN-код: 9960-4160
https://pavlov.rocks
Россия, 109029, Москва, ул. Средняя Калитниковская, д. 28

Анна Евгеньевна Андрейченко

Научно-практический клинический центр диагностики и телемедицинских технологий Департамента здравоохранения г. Москвы

Email: a.andreychenko@npcmr.ru
ORCID iD: 0000-0001-6359-0763
SPIN-код: 6625-4186

к.ф.-м.н.

Россия, 109029, Москва, ул. Средняя Калитниковская, д. 28

Антон Вячеславович Владзимирский

Научно-практический клинический центр диагностики и телемедицинских технологий Департамента здравоохранения г. Москвы

Email: a.vladzimirsky@npcmr.ru
ORCID iD: 0000-0002-2990-7736
SPIN-код: 3602-7120

д.м.н.

Россия, 109029, Москва, ул. Средняя Калитниковская, д. 28

Ануш Артуровна Ревазян

Научно-практический клинический центр диагностики и телемедицинских технологий Департамента здравоохранения г. Москвы

Email: anushrevazyan@gmail.com
ORCID iD: 0000-0003-1589-2382
Россия, 109029, Москва, ул. Средняя Калитниковская, д. 28

Юрий Сергеевич Кирпичев

Научно-практический клинический центр диагностики и телемедицинских технологий Департамента здравоохранения г. Москвы

Email: y.kirpichev@npcmr.ru
ORCID iD: 0000-0002-9583-5187
SPIN-код: 3362-3428
Россия, 109029, Москва, ул. Средняя Калитниковская, д. 28

Сергей Павлович Морозов

Научно-практический клинический центр диагностики и телемедицинских технологий Департамента здравоохранения г. Москвы

Email: morozov@npcmr.ru
ORCID iD: 0000-0001-6545-6170
SPIN-код: 8542-1720

д.м.н., профессор

Россия, 109029, Москва, ул. Средняя Калитниковская, д. 28

Список литературы

  1. Гусев А.В. Перспективы нейронных сетей и глубокого машинного обучения в создании решений для здравоохранения // Врач и информационные технологии. 2017. № 3. С. 92–105.
  2. Ranschaert E.R., Morozov S., Algra P.R., eds. Artificial intelligence in medical imaging. Cham: Springer International Publishing; 2019. doi: 10.1007/978-3-319-94878-2
  3. Griffith B., Kadom N., Straus C.M. Radiology Education in the 21st Century: Threats and Opportunities // J Am Coll Radiol. 2019. Vol. 16, N 10. Р. 1482–1487. doi: 10.1016/j.jacr.2019.04.003
  4. Savadjiev P., Chong J., Dohan A., et al. Demystification of AI-driven medical image interpretation: past, present and future // European Radiology. 2019. Vol. 29. N 3, Р. 1616–1624. doi: 10.1007/s00330-018-5674-x
  5. Ng А. What artificial intelligence can and can’t do right now. Harvard Business Review; 2016. Available from: https://hbr.org/2016/11/what-artificial-intelligence-can-and-cant-do-right-now
  6. Renear H., Sacchi S., Wickett K.M. Definitions of dataset in the scientific and technical literature // Proceedings of the American Society for Information Science and Technology. 2010. Vol. 47, N 1. Р. 1–4. doi: 10.1002/meet.14504701240
  7. Tan S.L., Gao G., Koch S. Big data and analytics in healthcare // Methods Inf Med. 2015. Vol. 54, N 6. Р. 546–547. doi: 10.3414/ME15-06-1001
  8. Kohli M.D., Summers R.M., Geis J.R. Medical image data and datasets in the era of machine learning—whitepaper from the 2016 C-MIMI meeting dataset session // J Digit Imaging. 2017. Vol. 30, N 4. Р. 392–399. doi: 10.1007/s10278-017-9976-3
  9. Willemink M.J., Koszek W.A., Hardell C., et al. Preparing medical imaging data for machine learning // Radiology. 2020. Vol. 295, N 1. Р. 4–15. doi: 10.1148/radiol.2020192224
  10. Морозов С.П., Шелехов П.В., Владзимирский А.В. Современные стандартизованные подходы к совершенствованию службы лучевой диагностики // Проблемы стандартизации в здравоохранении. 2019. № 5-6. С. 30–34. doi: 10.26347/1607-2502201905-06030-034
  11. Kulberg N.S., Gusev M.A., Reshetnikov R.V., et al. Methodology and tools for creating training samples for artificial intelligence systems for recognizing lung cancer on CT images // Health Care Russian Federation. 2021. Vol. 64, N 6. Р. 343–350. doi: 10.46563/0044-197x-2020-64-6-343-350
  12. Preston-Werner T. Semantic Versioning 2.0.0 [Internet]. Available from: https://semver.org
  13. Морозов С.П., Проценко Д.Н., Сметанина С.В. и др. Лучевая диагностика коронавирусной болезни (COVID-19): организация, методология, интерпретация результатов : препринт № ЦДТ ― 2020 ― II. Версия 2 от 17.04.2020. Серия «Лучшие практики лучевой и инструментальной диагностики». Вып. 65. Москва : ГБУЗ НПКЦ ДиТ ДЗМ, 2020. 80 с. Режим доступа: https://tele-med.ai/biblioteka-dokumentov/luchevaya-diagnostika-koronavirusnoj-bolezni-covid-19-organizaciya-metodologiya-interpretaciya-rezultatov. Дата обращения: 15.01.2021.
  14. Pavlov N. ECR 2021: Value of technical stratification of medical datasets for AI services. Moscow, 2021. [Internet]. Available from: https://connect.myesr.org/course/ai-in-breast-imaging/
  15. Морозов С.П., Владзимирский А.В., Ледихова Н.В. и др. Московский эксперимент по применению компьютерного зрения в лучевой диагностике: вовлеченность врачей-рентгенологов // Врач и информационные технологии. 2020. № 4. С. 14–23. doi: 10.37690/1811-0193-2020-4-14-23
  16. Morozov S.P., Vladzymyrskyy A.V., Klyashtornyy V.G., et al. Clinical acceptance of software based on artificial intelligence technologies (radiology). Series «Best practices in medical imaging». Issue 57. Moscow; 2019. 45 p.
  17. Morozov S.P., Andreychenko A.E., Pavlov N.A., et al. MosMedData: Chest CT scans with COVID-19 related findings dataset // medRxiv. 2020. doi: 10.1101/2020.05.20.20100362
  18. Sushentsev N., Bura V., Kotniket M., et al. A head-to-head comparison of the intra- and interobserver agreement of COVID-RADS and CO-RADS grading systems in a population with high estimated prevalence of COVID-19 // BJR Open. 2020. Vol. 2, N 1. Р. 20200053. doi: 10.1259/bjro.20200053
  19. Jin C., Chen W., Caoet Y., et al. Development and evaluation of an artificial intelligence system for COVID-19 diagnosis // Nat Commun. 2020. Vol. 11, N 1. Р. 5088. doi: 10.1038/s41467-020-18685-1

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML
2. Рис. 1. Этапы формирования медицинского датасета.

Скачать (91KB)
3. Рис. 2. Взаимосвязь клинической задачи, датасета и успеха при внедрении решения на основе искусственного интеллекта (ИИ) в рутинную клиническую практику.

Скачать (171KB)
4. Рис. 3. Датасеты московского эксперимента по использованию инновационных технологий в области компьютерного зрения для анализа медицинских изображений и дальнейшего применения в системе здравоохранения г. Москвы, подготовленные по настоящей методике.

Скачать (426KB)
5. Рис. 4. Классификация разметки по трудозатратам и степени верификации.

Скачать (291KB)
6. Рис. 5. Базовая структура README файла.

Скачать (199KB)

© Павлов Н.А., Андрейченко А.Е., Владзимирский А.В., Ревазян А.А., Кирпичев Ю.С., Морозов С.П., 2021

Creative Commons License
Эта статья доступна по лицензии Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».