ГЛУБОКОЕ ОБУЧЕНИЕ И БОЛЬШИЕ ДАННЫЕ ДЛЯ УЛУЧШЕНИЯ ЛАБОРАТОРНОЙ ДИАГНОСТИКИ

Глубокое обучение и большие данные для улучшения лабораторной диагностики

Диагностические лаборатории собирают и выдают в большом количестве медицинские данные. Все эти массивы данных обрабатываются людьми-экспертами, которые вручную и с большой осторожностью визуально анализируют большие сложные и наборы данных для постановки диагнозов. Люди скрупулезно вникают в детали визуализации данных, сегментируют и интерпретируют их. Эксперты могут идентифицировать пять или шесть опухолевых образований на большой площади исследуемых тканей.

Улучшение лабораторной диагностики

В наш век цифровизации и автоматизации выявление патологий по-прежнему является чрезвычайно ручным и длительным процессом, требующим большого мастерства и точности во избежание ошибочного диагноза. Врач внимательно просматривает наборы отдельных слайдов с разделами меченого образца под микроскопом, затем создает отчет о патологии, основанный на том, что они физически могут видеть невооруженным глазом. Лаборатория диагностики явно нуждается и заслуживает некоторой автоматизированной помощи в этой важной задаче.

Улучшение лабораторной диагностикиТиповое изображение слайда с 20-кратным увеличением (WSI) приводит к нескольким гигапикселям данных, каждый из которых имеет только 300 или около того критических пикселей, которые будут точно использоваться для определения диагноза. Любая форма автоматизированной помощи для лаборатории имеет очевидный потенциал для сокращения времени и улучшения лабораторной диагностики. Программа может дублировать результаты обработки специалистом, выявляя упущенные патологии.

Более быстрая и более точная диагностика рака это то, что нужно пациентам.

Томас Фукс, директор Центра рака Мемориала Слоуна Кеттеринга, профессор Вайля Корнелла и часто называемый «отцом вычислительной диагностики патологий», безусловно, согласен. Недавно Фукс, основатель и главный научный сотрудник Paige получил инвестиции в размере 25 миллионов долларов. Финансирование было проведено компанией Breyer Capital, чтобы позволить Paige не только получить доступ к технологии искусственного интеллекта, разработанной Томасом Фукс, но и получить доступ к крупнейшему хранилищу слайдов в мире в MSKCC. Сочетание технологий, программного обеспечения и богатых клинических данных с коммерциализацией является ключевым в это проекте.

Поиск больших данных

Задача сбора достаточного количества данных для эффективного машинного обучения для выявления раковых клеток была нетривиальной. Тем не менее, Fuchs и команде удалось собрать базы данных беспрецедентного размера в области патологий, которые содержали 12 160 отдельных слайдов материала биопсии из простат.

Их работа, глубокое многоуровневое обучение для классификации и локализации патологии, включает подробное исследование описаний работы и проблемы. Набор данных, используемый в этом анализе, почти на два порядка больше, чем большинство других доступных цифровых наборов данных.

Это большие данные, а не массивы, они будут постоянно пополняться по мере роста архивов. Набор слайдов из 12 160 биопсий был отсканирован в цифровом виде с 20-кратным увеличением. Причем 2424 слайда были помечены как положительные, а 9,736 - отрицательные. Затем этот набор данных был случайным образом разделен для обучения (70 процентов), для процедуры валидации (15 процентов) и для тестирования (15 процентов).

Nvidia Apex

Nvidia ApexДля исследования патологий использовался собственный кластер из шести систем Nvidia DGX-1, каждый из которых содержит восемь ускорителей Tesla V100 Volta GPU, которые использовали OpenSlide для доступа к файлам WSI. PyTorch использовался для загрузки данных, построения моделей и обучения, с дальнейшим анализом данных результатов. Важно отметить, что программные компоненты для этого типа анализа индивидуальны. Настолько, что Nvidia недавно анонсировала на конференции IEEE / CVF по компьютерному видению и распознаванию образов в Солт-Лейк-Сити целый пакет программного обеспечения, чтобы сделать конвейеры искусственного интеллекта, такие как Fuchs, еще более высокопроизводительными, и немного проще для исследователей.

В частности, у установки было новое программное обеспечение Apex от Nvidia, которое по сути является расширением PyTorch, которое обеспечивает утилиты со смешанной точностью. Утилиты предназначены для повышения скорости обучения, а также для обеспечения точности и стабильности обучения в одиночной точности.

В частности, Apex предлагает автоматическое выполнение операций в FP16 или FP32 с автоматической обработкой преобразования основных параметров и автоматическим масштабированием потерь. NVIDIA утверждает, что все эти функции доступны с четырьмя или меньшими изменениями в существующем коде. Этот тип развития крайне важно, так как нам необходимо создавать сложные системы обучения с все большими наборами данных, такими как те, которые встречаются в этом конкретном случае использования патологии, а также следя за общей сложностью программного обеспечения.

Использование таких высокоуровневых языковых расширений действительно звучит как пресловутая «легкая кнопка» для разработчиков программного обеспечения, которые боролись с тем, как лучше всего применять коды к этим новым архитектурам для производительности.

Наконец, конфигурация Paige.ai включает в себя стек программного обеспечения для конвейера данных под названием Dali , который также был анонсирован Nvidia. Dali - это ускоритель данных с расширением GPU и библиотека загрузки изображений для оптимизации потоков данных для глубоких систем обучения. Ускоряя исследование данных с использованием графических процессоров, Dali обращает внимание на узкие места производительности, исследователи могут масштабировать производительность обучения на моделях классификации изображений, у пользователей будет меньше дублирования кода из-за более согласованной высокопроизводительной загрузки данных и расширения в рамках фреймворков. Dali полагается на новую ускоренную процедуру nvJPEG Nvidia, которая также была анонсирована во время конференции CVPR. Это должно помочь объединить все части программного обеспечения в аккуратный контейнер, что еще больше снизит нагрузку на исследователя. Эти тонкие анонсы программного обеспечения будут иметь решающее значение, поскольку все более сложные системы создаются для исследований.

Аннотирование больших данных

Искусственный интеллект Fuchs по обучению с несколькими экземплярами (MIL) основан на тщательной оценке эффективности работы. Он предполагает, что для обучения требуется только общий диагноз, тем самым он избегает дорогих пиксельных мутаций, которые обычно являются частью подходов к обучению. Fuchs и команда достигли AUC 0,98 на тестовом наборе из 1824 слайдов. Это чрезвычайно обнадеживает, особенно в качестве системы аугментации для создания высоконадежной лаборатории цифровой диагностики. Вопрос в том, какую точность должны достичь эти методы, прежде чем их можно будет внедрить в рабочие процессы? Большие исследования потребуются, и большие массивы данных, которые могут быть использованы для создания точных и устойчивых систем аугментации.

Самая большая проблема для расширенного диагностического обслуживания: отсутствие потенциальной положительной выборки. С этой целью и для дальнейшего ускорения процесса, расширенные все-флэш-системы из Pure Storage были развернуты для перемещения больших данных в кластеры машинного обучения на них.

Fuchs представили свою работу на этой неделе на конференции IEEE / CVF по компьютерному зрению и распознаванию образов или CVPR в Солт-Лейк-Сити с названием «Иформационная патология в масштабе: изменение клинической практики на один петабайт за раз». «Один петабайт за раз»: эта команда явно имеет дело с большим и постоянно растущим количеством больших файлов. В прошлом мы говорили об удалении узкого места для ИИ с комбинацией флэш-памяти Pure Storage и графических процессоров Nvidia. Из этого случая использования патологии становится совершенно ясно, что для более быстрого сочетания памяти, сети и вычисления потребуется дальнейшее ускорение точной аннотации злокачественных тканей с помощью интеллектуальных систем.

TensorFlow

TensorFlowНедавно в сообществе хранилищ возникли некоторые проблемы, связанные с высокой скоростью ввода-вывода для приложений машинного обучения. Беглый взгляд на бенчмарк TensorFlow и сравнение синтетических данных с реальными наборами обучения данных может дать первое впечатление о том, что синтетический набор данных, который не выполняет операции ввода-вывода с диска, демонстрирует сходную производительность с реальными данными, которые явно попадают на диск. Это предполагает, что дисковый ввод-вывод не может быть основным узким местом. Почему это должно быть? Ну, для большинства стандартных двухъядерных процессоров с небольшим количеством SSD, I / O действительно не является узким местом.

Результаты TensorFlow абсолютно правильны. Однако, когда вы добавляете в высокоскоростные тензоресурсы FP16 и 300 ГБ / сек NVSwitch, игра меняется быстро, так как эти устройства имеют ненасытную потребность в сверхширокополосных трубах, чтобы быстро вбирать массивные наборы данных, а затем работать на них. Тесты TensorFlow предназначены для единственной копии 14-миллионного набора изображений ImageNet, который сам весит в несколько сотен гигабайт. В отличие от клинических данных, которые уже находятся на уровне сотен терабайт, и вскоре будут множественными петабайт, каждый из которых нуждается в быстром переходе через кластеры устройств. Это совершенно новая задача для точного понимания и диагностики только пути ввода-вывода.

 Ускорение наборов данных и связанных скоростей передачи данных также напрямую коррелирует с повышенной точностью, которая может быть получена при анализе все больших архивов стеклянных слайдов, созданных лабораториями патологии. Представляя интерес к людям в области вычислительной техники, представляется значительный интерес к созданию все более крупных хранилищ генетического материала и образцов тканей. Такие проекты, как «Все из нас», нацелены на то, чтобы получить данные от 1 000 000 американцев. Есть потенциал для еще одной волны данных, чтобы поразить еще больше областей наук о жизни, в клинических и биомедицинских исследованиях.

Предполагается, что библиотека слайдов будет расти на 1 000 000 слайдов в год, Даже физическая инфраструктура хранения необходимая для хранения стеклянных слайдов сама по себе является нетривиальной. Fuchs сталкивается с основной проблемой в документе, заявляя, что «отсутствие большие массивы данных, которые необходимы для изучения моделей классификации большой емкости, отбросили развитие вычислительной диагностики». Этот факт начинает меняться. Крупные архивы тканей вмещают больше данных. Более крупные данные порождают более точные модели и прогнозы для здравоохранения. Суть в том, что все более высокая скорость передачи данных и ускоренные вычисления и хранение, как внутри, так и вблизи клиники, будут необходимы, поскольку эти наборы данных станут более распространенными. Компьютерные модели и аппаратные средства будут по-прежнему иметь критически важное значение, поскольку быстро развивающиеся, реальные и более точные методы ИИ смогут обеспечить лучшие результаты в отношении диагностики здоровья и станут еще более распространенными в процессах здравоохранения. «Больше данных - лучшие решения»: новая мантра.

ЧИТАЙТЕ ТАКЖЕ

Задать вопрос

Оставьте свое сообщение и контакты для связи.
Мы с вами обязательно свяжемся.