ДАННЫЕ ДЛЯ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА

Данные для искусственного интеллекта

В прошлом году был опубликован отчет американских специалистов, в котором экспертная группа учёных, изучив ситуацию в здравоохранении и имеющийся опыт применения искусственного интеллекта (ИИ) пришла к выводу, что применение новых технологий в медицине перспективно и эффективно. Но существует ряд проблем, которые вызывают опасения у экспертов. Они назвали в числе таких проблем огромный объем данных, качество которых оставляет желать лучшего. IT- системы в медицине генерируют большое количество данных, и важно обеспечить их интеграцию и совмещение друг с другом. Третьей проблемой на сегодня является доступность этой информации. Электронные карты и информация, находящаяся в них, должны быть объективными и достоверными.

Британские эксперты призвали IT-сообщество более ответственно подойти к подготовке данных. Качество потоков данных влияет на точность алгоритмов машинного обучения, а в конечном виде на результат. Давайте разберемся, как качество данных влияет на результативность применения искусственного интеллекта.

Работа над созданием искусственного интеллекта с компьютерного анализа специально собранных данных, на котором машина сама выявляет закономерности, на основе собранной информации пишет алгоритмы. Эти алгоритмы и становятся основой для работы всей системы в перспективе.

Машинное обучение может осуществляться по-разному. Три способа возможны для создания алгоритмов: программу может обучать учитель, можно обучать с подкреплением, и самообучение.

достоверность данныхИзучая опыт работы различных коллективов, бизнес операций и технические аспекты, эксперты советуют стартапам и отдельным программистам, работающим в сегменте медицины, применять метод обучения «с учителем». Обосновывают эксперты свое мнение тем, что в этом методе используются подобранные базы данных. Данные подобраны таким образом, что правильные зависимости уже установлены. Параметры настроены так, чтобы погрешности полученного результата были минимальны. При этом способе обучения обучающаяся программа способна соотнести вводные данные и истинный ответ, что позволяет ей установить истинную взаимосвязь между ответом и сходными данными. Предположим, мы имеем набор рентгенологических снимков, на которых выделены патологические области. Заключения врачей закодированы. Это база данных используемая для машинного заключения. На основе этих данных программа предлагает несколько моделей, разработчику остается выбрать ту, которая отвечает требованиям, например по верности предположений. Кроме простоты этот метод отличают небольшие финансовые затраты. Необходимо оплатить работу небольшой команды программистов, предоставить им базу медицинской информации, состоящую из заведомо правильных вопросов-ответов, поставить сроки выполнения проекта. В противном случае для реализации проекта в команде должны быть медики. Данные надо будет собирать и вносить. На этот этап уходят месяцы работы.

Не надо забывать, что на результат работы сильное влияние оказывает качество входных данных. Обучение программы строится на анализе этих данных, и не зависит от алгоритмов и техники. Как говорится, что посеешь, то и пожнешь.

Какими должны быть качественные входные данные? Необходимо провести определенное, достаточное количество измерений, охватываемое все возможные случаи. Необходимо следить, чтобы данные вводились без ошибок, корректно. Информация должна иметь цифровой формат. Данные должны поступать своевременно и связанно. Что же это значит?

Достаточное количество и максимальный охват точек

Необходимо представить все возможные комбинации состояний, параметров и измерений физиологических показателей здоровья. Если, например, исследуется влияние количества канцерогенного вещества на здоровье организма, то необходимо собрать и представить максимальное количество комбинаций этого параметра и сотней других физиологических параметров.

Данные нужно представить в статистически значимом количестве. Если исследуется система, состоящая из врачей-специалистов, то число персон для выборки должно отражать масштабность исследования. Для сто тысячного количества врачей терапевтов в стране, исследование, опирающееся на пятьсот специалистов, будет не достоверным.

Для успешного процесса машинного обучения необходимы сотни тысяч, а лучше миллионы оцифрованных результатов исследований. Только такое количество может обеспечить создание надежной, достоверной системы ИИ.

максимальный охват точекПод оцифрованными результатами исследований понимают изображения с разметкой, медицинские протоколы, истории болезней, ЭМК, аппаратный мониторинг физиологических параметров. Что будет, если такого количества данных просто нет? В этом случае высоки риски создания неверных алгоритмов, и, как следствия, незрелой системы ИИ. Такие системы выпускать на рынок безответственно.

Эксперты проанализировали точность систем, показавших хороший результат, которые использовали огромный объем данных. Так, система ИИ, задачей которой ставился прогноз для пациента, попавшего в больницу, должна была вынести вердикт, выбирая из трех возможных вариантов: положительного (выписка), негативного (уход из жизни), промежуточного (еще одна госпитализация). А вторая попутная задача: спрогнозировать окончательный диагноз. Разработчики взяли сорок шесть миллиардов реальных комбинаций, оцифрованных и хранящихся в архивах. И только такое гигантское количество данных позволили добиться высокой точности, недостижимой другими аналогичными системами.

Откуда брать такой объем качественных достоверных данных? Компания-разработчик обратилась в медицинские Центры при Калифорнийском Университете (Сан-Франциско) и Чикагском местных Университетах. Сбор данных оказался трудным делом. Во-первых, обработка большого количества информации требует времени. Во-вторых, расшифровка почерка докторов не всегда возможна.

Компания IBM рассказала, что создавая систему Watson, они загрузили более шестисот тысяч документов и двадцать пять тысяч оцифрованных историй болезней. Чтобы заполучить миллиарды снимков пациентов, холдинг приобрел медицинскую компанию. А доступ к полсотни миллионов электронных медицинских карт стоил IBM покупки небольшой развивающейся телемедицинской компании. После этого два года нейронные сети обрабатывали закономерности и выводили алгоритмы.


Корректность и достоверность данных

Машина, программа, интеллект не может самостоятельно выявить ошибки. Он по умолчанию принимает данные за истинные. Поэтому подготовка и ввод данных, особенно таких сложных, как медицинских параметров, требует ответственного, вдумчивого подхода. Любые ошибочные цифры: в диагностике, в лечении, текстовые или цифровые приведут к ошибочным выводам. Важно устранить не только профессиональные ошибки, но и ошибки языковые, орфографические, пунктуационные. Если программа использует несколько языков, то стоит проверить истинность написания медицинских терминов. Поэтому важно обеспечить этап верификации и валидации данных. Для отличного результата и успешной работы искусственного интеллекта нельзя загрузить, полученные от медицинских работников данные все подряд. Обработка и проверка данных должна осуществляться в несколько этапов на наличие орфографических ошибок, семантического соответствия истинности, связанности данных и их полноты.

Форматирование данных

Форматирование данныхПолученные объемы данных из Медицинских Центров должны быть отформатированы и приведены к виду для цифровой обработки. Если речь идет о рентгенологических исследованиях, то нельзя использовать снимки с аналоговых аппаратов. Необходимо позаботится, чтобы они были сделаны на цифровом оборудовании. Стандартные характеристики физиологических статусов должны быть закодированы. Например, для данных о группе крови используются система НСИ.

Меньше всего хлопот с обработкой числовой информации физиологических параметров. Все что мы измеряем числами, например, рост, вес, давление крови, так и вводится. Оптимально собирать и передавать данные в виде связанных величин: код величины – значение. Следует избегать текстовой информации, использования разметки HTML, форматирования.

Как быть с неструктурированной информацией? Записями обследований и жалобами пациента, описание обстоятельств заболевания или травмы. Эту информацию нельзя отбрасывать, так как нюансы важны для создания точного интеллекта. Но и обработка, структурирование такой информации крайне сложная процедура. Можно использовать ее в таком виде, приведя к удобному единому формату.

Выбор формата для данных еще одна важная подзадача, требующая взвешенного подхода. Разница в формате дат, обусловленная различием в национальных традициях или использовании времени в разных часовых поясах, может негативно сказаться на построении системы клинических рекомендаций, и может стать препятствием для создания временной последовательности событий.

Еще одна важная характеристика данных это своевременность

Вся информация, вводимая в базы данных, должна иметь временные характеристики. Это не формальность. Даты используются алгоритмами в разных целях. Поэтому ввод данных поздними числами может повлиять на качество работы интеллекта. Своевременность и последовательность ввода данных не менее важна для обработки информации, чем единый формат дат.

Связанность данных

Специфика создания IT-систем в медицине заключается в том, что человеческий организм необычайно сложен, многообразен и изменчив. Описание состояния организма пациента требует использования большого количества параметров. Искусство врача, на уровне интуиции определить, какой из многих факторов является влияющим на недомогание. Самые незначительные изменения в организме человека приводят к серьезным заболеваниям. Но и обратная связь важна: результаты лабораторной диагностики зависят от пола, возраста, и даже от качества реактивов в лаборатории. Еще сюда же можно добавить наследственность, хронические заболевания, характер работы. Поэтому выявление связей между, на первый взгляд, не связанных ничем параметров важный вопрос в подготовке данных. Поэтому машинному интеллекту необходимо предоставить весь спектр информации о пациенте, чтобы он (или оно) могло правильно сформировать заключение, сделать верный прогноз. Этот процесс аналогичен работе врача, который не только изучает результаты анализов, но и учитывает персональную информацию.

Эффективность медицинских систем обеспечивается связанностью данных. Например, если собирается информация исследований в лаборатории, то ее необходимо дополнить социальным статусом, данными наблюдений врача, информацией о составе семьи, диагностированных у пациента заболеваний, сведения о работе, наследственных патологиях в семье. Важно даже полученное образование, образ жизни… вообще все, что только можно собрать. Логично сделать вывод, что количество связанных данных, так же как и их качество влияют на потенциальную точность работы системы.

Последний аспект: совместимость

Большое количество связанных данных влечёт за собой проблему их совместимости. Для сбора связанных данных рекомендовано использовать различные источники. Чем больше, тем лучше, но страдает совместимость баз. Этот момент хорошо иллюстрирует изучение лекарственной терапии. Чтобы получить объективную картину, необходимо собрать информацию обо всех аспектах лекарственной терапии из лечебных учреждений различной формы собственности, региональной принадлежности. В разных регионах, в разных учреждениях по-разному подходят к обработке и хранению информации. К сожалению, не выработаны единые стандарты медицинских данных, нет единой системы кодирования лекарств. И это создает непреодолимые сложности при совместимости данных. Несовместимость баз данных, собранных из разных организаций, представляет большую проблему для разработки ИИ. Решение этой проблемы кроется в временных и ресурсных затратах на валидацию и совместимости информации, приведению данных к единому классификатору. Хорошая новость, что эту процедуру автоматизировали. Она называется Mapping, после которого или вместо которого проводится Linking. Это специальная автоматическая обработка, приводящая все данные к единому классификатору. Но качество такой обработки пока оставляет желать лучшего, люди пока еще работают качественнее, хотя и медленнее.


Вывод первый:

Результативность системы искусственного интеллекта зависит от миллиона качественных измерений. Отсутствие таковых данных требует больших ресурсов в сбор, подготовку и валидацию. Если же создание качественной базы данных не возможно, то успех предприятия по разработке системы ИИ – под сомнением. Необходимо отказаться от работы над проектом и решать проблему альтернативными методами.

Вывод второй:

Прежде, чем приступить к созданию системы искусственного интеллекта, необходимо обсудить с разработчиком качество, количество и формат данных. Ответственная проработка этого вопроса на стадии подготовки позволит быстрее подготовить базу данных и не терять время на стадиях разработки и запуска.

Подробнее

ЧИТАЙТЕ ТАКЖЕ

Задать вопрос

Оставьте свое сообщение и контакты для связи.
Мы с вами обязательно свяжемся.