Модели машинного обучения и бенчмарки
🟩 BioMistral-NLU: модель с повышенным пониманием медицинской терминологии.Машинное обучение в медицине: большой дайджест за 21 - 27 октября 2024 г.
BioMistral-NLU – модель, разработанная на основе BioMistral и настроенная на выполнение инструкций для 7 задач здравоохранения. Чтобы обучить модель, был создан датасет MNLU-Instruct, собранный из 33 открытых источников. Спектр задач MNLU-Instruct: распознавание именованных сущностей, классификация документов, извлечение отношений и анализ тональности текста.
Обучение модели выполнялось методом тонкой настройки с применением унифицированного формата промптов. Для повышения у модели навыка обощения, в набор данных MNLU-Instruct были включены задачи медицинского реферирования, требующие навыков понимания и обобщения текста.
Оценка BioMistral-NLU проводилась на двух бенчмарках: BLUE и BLURB, это совокупно составило 15 наборов данных и 7 разных задач.
🔸Arxiv
🟩 MedRegA: интерпретируемая двуязычная MMLM для медицинских задач.Машинное обучение в медицине: большой дайджест за 21 - 27 октября 2024 г.
MedRegA – двуязычная (английский и китайский языки) MMLM, способная обрабатывать медицинские задачи на уровне изображения и области, частично имитируя работу врача.
Для обучения модели был создан большой набор данных MedRegInstruct, включающий три типа задач, ориентированных на работу с областями: идентификация области по тексту, обнаружение области по тексту и генерация отчета с привязкой к областям.
MedRegInstruct включает в себя 8 модальностей (рентген, КТ, МРТ, патология, дерматология, офтальмология и др.) и содержит 550 тыс. комбинаций «изображение-вопрос-ответ» и 240 тыс. изображений с отчетами, аннотированными областями их подробными описаниями.
Архитектура MedRegA основана на модели InternVL 1.2 и состоит из:
визуального энкодера InternViT-6B;
LLM Nous-Hermes-2-Yi-34B;
модуля выравнивания.
Обучение модели проводилось в два этапа:
выравнивание с замороженным энкодером и языковой моделью,
инструктивный файнтюн с замороженными энкодером и модулем выравнивания.
Для улучшения качества генерации в модели реализован механизм Regional CoT (Chain-of-Thought), который позволяет использовать пространственные знания модели.
MedRegA была протестирована на обширном наборе медицинских задач: ответы на вопросы, генерация отчетов,классификация изображений и задачи, ориентированные на работу с областями.
Результаты тестов показали, что MedRegA превосходит существующие модели в большинстве задач, демонстрируя универсальность и интерпретируемость. Модель способна точно идентифицировать и локализовать структуры на медицинских снимках.
🔸Arxiv 🔸Gihtub 🔸Model 🔸Project page
🟩 PanDerm: базовая MMLM для дерматологии.Машинное обучение в медицине: большой дайджест за 21 - 27 октября 2024 г.
PanDerm – MMLM для дерматологии, обученная методом SFT на наборе данных из 2 млн. изображений заболеваний кожи.
Датасет обучения был собран из 11 клинических учреждений и включает 4 типа изображений: дерматоскопические, клинические, макрофотографии всего тела (TBP) и гистопатологические.
Архитектура PanDerm состоит из энкодера ViT-large, регрессора и модели учителя на основе CLIP. В процессе обучения использовались две цели: реконструкция скрытого представления и CLIP latent alignment.
PanDerm была протестирована на 28 наборах данных по клиническим задачам: скрининг рака кожи, диагностика неопластических и воспалительных заболеваний, сегментация поражений кожи, мониторинг изменений, прогнозирование метастазов и прогноз.
PanDerm достигла современных результатов во всех задачах, зачастую превосходя существующие модели, даже при использовании 5-10% размеченных данных. Клиническая эффективность модели подтверждена в реальных условиях.
PanDerm превзошла врачей на 10,2% в точности обнаружения меланомы на ранней стадии и повысила точность диагностики многоклассового рака кожи на 11% в условиях совместной работы человека и ИИ.
PanDerm демонстрирует устойчивую производительность независимо от демографических факторов, таких как: расположение на теле, возраст, пол и цвет кожи.
🔸Arxiv
🟩 MoRE: MMLM для анализа рентгеновских снимков, ЭКГ и медицинских заключений.Машинное обучение в медицине: большой дайджест за 21 - 27 октября 2024 г.
MoRE (Multi-Modal Contrastive Pre-training Framework) – первая в медицинской сфере модель для анализа рентгеновских снимков, электрокардиограмм (ЭКГ) и медицинских заключений.
MoRE использует архитектуру трансформеров для кодирования различных модальностей данных в единое репрезентативное пространство, что повышает точность диагностики и обеспечивает всестороннюю оценку состояния пациентов.
Для обучения модели использовался метод контрастивных потерь, который выравнивает признаки, специфичные для каждой модальности, в единый эмбединг.
Такая совокупность позволяет использовать MoRE для решения задач zero-shot классификации и мультимодального поиска.
Тестирование MoRE на наборах данных Mimic-IV, CheXpert, Edema Severity и PtbXl продемонстрировало превосходство над существующими мультимодальными подходами. MoRE показывает улучшения в улавливании сложных межмодальных отношений и устойчивость в медицинской диагностике.
🔸ArxivФреймворки и методологии
🟦 Метод “Обратной диффузия во времени” для обнаружения дипфейков в медицинских изображениях.Машинное обучение в медицине: большой дайджест за 21 - 27 октября 2024 г.
Обратная диффузия во времени (Back-in-Time Diffusion, BTD) – метод, основанный на диффузионных вероятностных моделях шумоподавления (DDPM).
В отличие от существующих методов, BTD не добавляет шум к целевому изображению, а выполняет один шаг обратной диффузии, фокусируясь на выявлении тонких следов манипуляций: искажения на границах смешивания или аномальные шумовые паттерны.
Для оценки метода были созданы 6 наборов данных с КТ- и МРТ-изображениями с использованием различных методов генерации дипфейков (CT-GAN и Stable Diffusion).
Результаты экспериментов показали, что BTD превосходит существующие методы обнаружения дипфейков по всем сценариям, достигая AUC 0,9 для обнаружения ненастоящих опухолей и 0,96 для удаленных опухолей.
🔸Arxiv 🔸Github 🔸Dataset
🟦 REFLECTOOL: агент для решения клинических задач.Машинное обучение в медицине: большой дайджест за 21 - 27 октября 2024 г.
REFLECTOOL – система для решения сложных медицинских задач с использованием специализированных инструментов. Система разработана для преодоления ограничений LLM, которые, несмотря на свой потенциал в медицине, не способны эффективно взаимодействовать с разнообразными данными клинической среды.
REFLECTOOL основан на двухэтапном подходе:
Этап оптимизации: Агент обучается на небольшом наборе данных, используя инструменты для решения задач. Успешные решения сохраняются в долговременной памяти, а опыт использования каждого инструмента накапливается.
Этап вывода: Агент использует долговременную память для поиска похожих успешных случаев и оптимизации выбора инструмента. На этом этапе применяются два метода верификации: итеративная доработка и выбор кандидата.
Для оценки клинических агентов предлагается бенчмарк ClinicalAgent Bench, состоящий из 18 задач, в 5 ключевых аспектах: знания и рассуждения, мультимодальность, численный анализ, понимание данных и достоверность
Эксперименты на ClinicalAgent Bench демонстрируют превосходство REFLECTOOL над чистыми LLM (более чем на 10 пунктов).
REFLECTOOL продемонстрировал высокую адаптивность и эффективность в решении сложных клинических задач. Анализ распределения инструментов в траектории решения задач показывает, что REFLECTOOL позволяет модели использовать инструменты чаще и разнообразнее, чем другие методы.
🔸Arxiv 🔸Github
🟦 GEMCODE: Генеративный метод для разработки сокристаллов с улучшенной таблетируемостью.Машинное обучение в медицине: большой дайджест за 21 - 27 октября 2024 г.
GEMCODE – это конвейер, разработанный специалистами Ивановского государственного химико-технологического университета, для ускоренной разработки действующих веществ лекарственных средств, позволяющий быстро генерировать уникальные и валидные химические структуры коформеров с высокой вероятностью образования сокристаллов и целевыми профилями таблетируемости.
GEMCODE основан на гибридизации генеративных моделей и эволюционной оптимизации, что позволяет проводить более широкий поиск в целевом химическом пространстве.
Для обучения моделей использовался набор данных, состоящий из 1,75 млн. химических структур из базы данных ChEMBL, и специализированный набор данных, содержащий 4227 уникальных структур коформеров.
Для прогнозирования механических свойств сгенерированных молекул была использована библиотека GOLEM и разработанные модели ML.
GEMCODE состоит из четырех основных компонентов:
Генерация кандидатов коформеров: Обученные генеративные модели (GAN, T-VAE, T-CVAE) создают SMILES-представления структур, подобных коформерам.
Прогнозирование механических свойств: Сгенерированные молекулы и терапевтические соединения подаются в обученные ML-модели, которые предсказывают механические свойства потенциальных сокристаллов.
Эволюционная оптимизация: Эволюционный алгоритм в сочетании с ML- моделями улучшает профили таблетируемости сгенерированных коформеров.Ранжирование по вероятности образования сокристаллов: GNN оценивает и ранжирует пары лекарств и коформеров в соответствии с вероятностью образования сокристаллов.
🔸Почитать подробнее про модель
🔸Github
🟦 VISAGE: синтез видео лапароскопических операций с использованием графов действийМашинное обучение в медицине: большой дайджест за 21 - 27 октября 2024 г.
VISAGE (VIdeo Synthesis using Action Graphs for Surgery) – метод, основанный на диффузионных моделях и графах действий, который позволяет синтезировать реалистичные видео лапароскопических операций.
Графы действий представляют собой структурированное описание органов, хирургических инструментов и их взаимодействий, фиксируя последовательность действий в процедуре.
VISAGE принимает на вход один кадр и генерирует видео последующих действий. Например, по кадру холецистэктомии и последовательности “разрезать”, “пузырный проток”, “клипса” модель генерирует видео, на котором хирург разрезает пузырный проток и накладывает клипсу.
Архитектура VISAGE состоит из энкодера изображения, энкодера графа действий и декодер. Энкодер графа действий преобразует последовательность действий в латентный вектор, который объединяется с закодированным начальным кадром.
Диффузионная модель обучается на задаче денойза, предсказывая шум, добавленный на каждом шаге, и вычитая его для восстановления исходного изображения.
Эксперименты проводились на наборе данных CholecT50, который содержит 50 видео лапароскопической холецистэктомии. Результаты показали, что VISAGE превосходит существующие модели по качеству генерации видео.
🔸Arxiv
🟦 MPP: интеграция метаболической информации в LLM для выявления аномалий во временных рядах клинических данных.Машинное обучение в медицине: большой дайджест за 21 - 27 октября 2024 г.
MPP (Metabolism Pathway-driven Prompting) – методика, которая интегрирует знания о метаболических путях в LLM для повышения точности выявления аномалий.
MPP использует два типа графов: метаболический граф направленного потока метаболитов, и временной граф, отражающий изменения концентраций метаболитов во времени. Эти графы преобразуются в текстовое представление и используются в качестве дополнительных подсказок для LLM. MPP состоит из трех этапов:
Предварительный промпт I : LLM анализирует временной ряд и пытается выявить аномалии, основываясь на своих общих знаниях.
Предварительная промпт II: LLM анализирует метаболический и временной графы и извлекает контекстуальную информацию о взаимосвязях между метаболитами.
Основной промпт: LLM объединяет информацию из предыдущих этапов и дает более точную и контекстно-зависимую оценку наличия аномалий.
Эффективность MPP была проверена на 2 реальных наборах данных (Steroid-M и Steroid-F), содержащих продольные профили стероидов у спортсменов. Для сравнения были использованы LLaMA 2-7B, Mistral-7B, Falcon-7B и GPT2 в 3 режимах (zero-shot, in-context learning и chain-of-thought).
Результаты показали, что MPP значительно улучшает точность выявления аномалий по сравнению с другими методами. Это связано с тем, что MPP позволяет LLM лучше понимать контекст и взаимосвязи между метаболитами. t-SNE визуализация показала, что MPP формирует более четкие кластеры в пространстве вложений, что свидетельствует о более структурированном и осмысленном представлении данных.
🔸Arxiv
🟦 SleepCoT: алгоритм для персонализированного управления здоровьем сна.Машинное обучение в медицине: большой дайджест за 21 - 27 октября 2024 г.
SleepCoT – алгоритмическая модель для персонализированного управления здоровьем сна с использованием метода CoT.
Особенность SleepCoT заключается в способности генерировать персональные рекомендации по здоровью сна, отвечать на уточняющие вопросы пользователей и предоставлять информацию по узкоспециализированным вопросам.
В основе архитектуры SleepCoT лежат четыре ключевых направления: синтез данных, обработка “длинных” знаний, персонализированные ответы на вопросы и генерация персонализированных рекомендаций.
Для синтеза данных используется модель GPT-4o, которая создаёт синтетические наборы данных, имитирующие реальные сценарии, связанные со здоровьем сна.
SleepCoT использует CoT-дистилляцию для обхода ограниченной способности SLM в обработке редких, узкоспециализированных запросов, перенимая знания из больших моделей.
Тестирование модели проводилось с использованием 100 смоделированных отчетов о сне и 1000 вопросов, специфичных для диагностики сна.
Результаты показали, что SleepCoT достигает производительности, сопоставимой с большими LLM, сохраняя эффективность для развертывания в реальных условиях.
🔸Arxiv
🟦 ALCD: Противодействие галлюцинациям в LLM.Машинное обучение в медицине: большой дайджест за 21 - 27 октября 2024 г.
Метод ALternate Contrastive Decoding (ALCD) основан на разделении функций идентификации и классификации медицинских сущностей. Для этого используются три модели LLM: нормальная, идентификационная и классификационная.
Во время инференса ALCD попеременно усиливает способность к классификации или идентификации, сравнивая логиты выходных распределений моделей. Для динамической настройки масштаба и области контрастных токенов используется адаптивная стратегия ограничений, которая основана на мере согласованности между моделями и уровнем их уверенности.
Эксперименты, проведенные на 6 различных задачах MIE с использованием двух базовых LLM (ChatGLM-6B и Qwen-7B-Chat), продемонстрировали значительное преимущество ALCD по сравнению с 8 существующими методами декодирования.
ALCD эффективно устраняет галлюцинации, связанные с идентификацией несуществующих сущностей и ошибками классификации, что подтверждается результатами тестирования и примерами из набора данных CHIP-MDCFNPC.
🔸ArxivМедицинские LLM-приложения
🟥 LMLPA: инструмент для лингвистической оценки личности LLM.Машинное обучение в медицине: большой дайджест за 21 - 27 октября 2024 г.
LMLPA (Language Model Linguistic Personality Assessment)- инструмент для измерения личностных черт LLM на основе анализа их текстовых ответов.
В отличие от традиционных личностных опросников, LMLPA использует открытые вопросы и AI-агента для оценки ответов. Это позволяет избежать искажений, связанных с порядком вариантов ответов, к которым чувствительны LLM.
LMLPA адаптирует вопросы опросника Big Five Inventory (BFI), переводя их в открытую форму и корректируя формулировки, чтобы они были применимы к особенностям функционирования LLM.
AI-агент, основанный на GPT-4-Turbo, оценивает ответы LLM, преобразуя текст в числовые значения, соответствующие пяти факторам личности: открытость опыту, добросовестность, экстраверсия, уживчивость и нейротизм.
Тестирование системы LMLPA показало высокую надежность и валидность. Результаты оценки личности LLM с помощью LMLPA согласуются с заданными личностными профилями, хотя LLM стремятся избегать крайних значений.
🔸Arxiv
🟥 Cистема обратной связи для обучения медицинским процедурам.Машинное обучение в медицине: большой дайджест за 21 - 27 октября 2024 г.
Система основана на анализе данных с различных источников: видеозаписи с нескольких камер (статических и носимых), показания инерциальных датчиков (IMU) с умных часов, а также аудиозаписей и текстовых форм обратной связи от мед.экспертов.
Для синхронизации видеоматериалов используется звуковой сигнал (хлопки в ладоши), а для маркировки этапов процедуры разработаны подробные инструкции.
В основе системы лежит метод классификации видео, позволяющий распознавать действия, выполняемые во время процедур. Для этого используются модели S3D, которые обучаются на размеченных видеоданных.
Обратная связь для студентов генерируется с помощью LLM, обученной на данных о процедурах и экспертных оценках. LLM анализирует результаты классификации видео и предоставляет информацию о правильности выполнения каждого этапа, включая порядок действий, пропущенные шаги и время ожидания.
🔸ArxivИсследования и обзоры
🟫 Storytelling XAI: повышение доверия к ИИ в медицине.Машинное обучение в медицине: большой дайджест за 21 - 27 октября 2024 г.
Авторы исследования рассматривают применение комбинации методов дистилляции знаний и интерпретации моделей для создания комплексных объяснений, адаптированных для медицинских специалистов и специалистов по ML.
Storytelling XAI использует многозадачное обучение с дистилляцией знаний, позволяя единой модели выполнять различные задачи: обнаружение аномалий на рентгеновских снимках грудной клетки, сегментация легких и генерация медицинских заключений.
Обучение модели происходит поэтапно: сначала три модели-учителя обучаются для каждой задачи, а затем целевая модель (более простая) перенимает знания от каждого учителя через дистилляцию знаний. Такой подход позволяет целевой модели уловить взаимосвязь между различными задачами и повышает ее навык интерпретируемости результатов.
Для интерпретации результатов применяются модельно-агностические методы (LIME) и модельно-специфические методы (GradCAM и визуализация карт внимания).
В результате Storytelling XAI предоставляет медицинским специалистам концептуальное понимание работы модели на понятном языке, а специалистам по ML – техническую интерпретацию.
🔸Arxiv
🟫 Оценка объяснимого ИИ (XAI) с помощью LLM.Машинное обучение в медицине: большой дайджест за 21 - 27 октября 2024 г.
Исследования с участием людей для оценки инструментов объяснимого ИИ (XAI) являются дорогостоящими, трудоемкими и трудно масштабируемыми. В обзоре исследуется потенциал LLM для воспроизведения роли участников исследований, чтобы упростить и ускорить процесс оценки XAI.
Авторы воспроизвели исследование, сравнивающее контрфактические и каузальные объяснения с точки зрения их полезности и эффективности в передаче информации от ИИ-систем.
Вместо людей в исследовании использовались 7 LLM (Llama 3, Qwen 2, Mistral 7B, Mistral Nemo и GPT-4o Mini) в различных экспериментальных условиях: использование памяти LLM и исследование влияния вариативности инференса LLM на соответствие ответам людей.
Результаты экспериментов показали, что:
LLM могут воспроизвести большинство выводов исходного исследования.
Разные LLM демонстрируют разную степень соответствия результатам, полученным с участием людей.
Экспериментальные факторы: использование памяти LLM и вариативность вывода, влияют на степень соответствия.
Эти результаты свидетельствуют о том, что LLM могут обеспечить масштабируемый и экономически эффективный способ упрощения качественной оценки XAI.
🔸Arxiv
🟫 Выявление и устранение предвзятости в LLM для клинических решений.Машинное обучение в медицине: большой дайджест за 21 - 27 октября 2024 г.
В статье исследуется методика “Контрфактические вариации пациента” (CPV), основанная на наборе данных JAMA Clinical Challenge, для оценки предвзятости LLM в сложных клинических случаях.
CPV подразумевает создание вариаций клинических случаев, изменяя пол и этническую принадлежность пациента, сохраняя при этом неизменными остальные медицинские данные.
Это позволяет оценить, как изменение демографических характеристик влияет на решения модели. Для исследования были выбраны восемь LLM, включая GPT-3.5, GPT-4 и Llama3.
Предвзятость оценивалась по ответам модели на вопросы с множественным выбором (MCQ) и по качеству объяснений этих ответов (XPL). В качестве методов устранения предвзятости изучались разработка промптов и возможности файнтюна.
Результаты:
LLM демонстрируют предвзятость в отношении пола и этнической принадлежности в результатах и в обосновании решений.
Файнтюн может уменьшить предвзятость, но также может стать источником новых видов предвзятости.
Разработка промптов недостаточна для полного устранения предвзятости.
Предвзятость в отношении пола в представлениях LLM варьируется в зависимости от медицинской специальности.
Важным выводом является то, что правильный ответ на MCQ не гарантирует отсутствия предвзятости в рассуждениях модели. Это подчеркивает важность оценки как MCQ, так и XPL для комплексного понимания проблемы предвзятости LLM в клинических приложениях.
🔸Arxiv
Если вы любите и изучаете машинное обучение, в нашем канале мы публикуем свежие модели, гайды, разбор llm, код и многое другое, подписывайтесь, будет будет полезно.
Предыдущий большой дайджест
Спасибо за прочтение!
Источник новости: habr.com