Реклама
Реклама

ИИ как домашний врач. Как мы тестировали: цели, подход, метод

Зачем мы провели это исследование


Мы стремились понять, как языковые модели (ИИ) ведут себя при ответах на медицинские вопросы в условиях, приближенных к реальному использованию. Нас интересовали четыре ключевых вопроса:

  • Насколько сильно формулировка вопроса влияет на точность и содержание ответа;
  • Склонны ли модели воспроизводить популярные мифы, не подтверждённые наукой;
  • Возможно ли уменьшить ошибку за счёт уточнений или фильтрации источников;
  • Какие риски создаются для пользователя без медицинской подготовки.


Что и как мы сравнивали


Для анализа мы выбрали пять конфигураций языковых моделей, различающихся по архитектуре, наличию памяти и глубине настройки.

  • YandexGPT 5.0 (Pro)
Модель с локальной памятью внутри одного чата. Не сохраняет информацию между сессиями и не формирует устойчивых предпочтений.

  • DeepSeek V3 R1
Аналогичный принцип памяти. Тестировалась в двух режимах: без фильтрации и с акцентом на научные источники.

  • ChatGPT 3.5 (OpenAI)
Модель младшего поколения. Использовалась в базовой конфигурации без памяти — это позволило оценить склонность к частотным искажениям без влияния контекста.

  • ChatGPT 4o (OpenAI), без памяти
Флагманская модель, протестирована в режиме по умолчанию. Цель — проверить, насколько её архитектура устойчиво фильтрует дезинформацию без дополнительных настроек.

  • ChatGPT 4o с памятью и «профилем врача»
Та же модель, но с активной памятью и заранее заданным профессиональным профилем. Этот профиль имитирует поведение врача, ориентированного на доказательную медицину.


Как выглядел «профиль врача» и зачем он нужен


В некоторых моделях (например, ChatGPT с активной памятью) доступна настройка пользовательского профиля. Это не просто «персонализация», а способ стабильно влиять на стиль и логику ответов.

В рамках нашего тестирования профиль врача включал:

  • приоритет достоверных источников: Cochrane, PubMed, UpToDate, NICE, FDA, ESC, AHA и др.;
  • акцент на критическую оценку информации и доказательность;
  • отказ от народных средств и маркетинговых мифов;
  • чёткое разграничение мнения и факта.

Мы условно обозначаем такую конфигурацию как обладающую критичностью 9,5 из 10. Это означает не жёсткий стиль, а:

  • склонность сомневаться в популярном;
  • проверку логики и источников;
  • отказ от генерации при этических или клинических рисках.

Без профиля даже продвинутые модели адаптируются к тону вопроса вместо того, чтобы следовать научной строгости. Именно профиль делает ИИ устойчивым и безопасным — не потому что он «знает», а потому что ему задали рамки допустимого.


Как проходили эксперименты


Мы придерживались следующей методики:

  1. Один и тот же вопрос задавался всем моделям в идентичной формулировке.
  2. Затем вопрос переформулировался — добавлялись уточнения вроде «что говорят врачи» или «ответь по Cochrane».
  3. В ряде тестов моделям явно указывалось использовать только надёжные источники.
  4. Все ответы фиксировались дословно, сравнивались между собой и с эталонной медицинской позицией.


Как мы оценивали ответы


Для оценки мы использовали пять критериев:

  • Соответствие принципам медицины основанной на доказательствах (рекомендации, метаанализы, систематические обзоры);
  • Зависимость от формулировки запроса (насколько ответ меняется при перефразировании);
  • Наличие опасной или недостоверной информации;
  • Прозрачность источников (указывает ли модель уровень достоверности);
  • Клиническая безопасность (готова ли модель отказаться от генерации в потенциально опасной ситуации).


Что важно помнить


Этот этап исследования не ставил цель определить «лучшую» модель. Мы стремились показать:

  • как архитектура модели влияет на склонность к ошибке;
  • насколько важна формулировка вопроса;
  • и при каких условиях модель становится действительно надёжной — особенно в чувствительных медицинских темах.

Содержание цикла «ИИ как домашний врач. Риск и польза»


ВЕРНУТЬСЯ К СПИСКУ СТАТЕЙ
ИЗМЕНЕНО: 25.05.2025 ПРОСМОТРЕЛИ: 6
Реклама
Реклама
Реклама
Развернуть блок