Меню

ИИ как домашний врач. Как мы тестировали: цели, подход, метод

Зачем мы провели это исследование

Мы стремились понять, как языковые модели (ИИ) ведут себя при ответах на медицинские вопросы в условиях, приближенных к реальному использованию. Нас интересовали четыре ключевых вопроса:

Насколько сильно формулировка вопроса влияет на точность и содержание ответа;
Склонны ли модели воспроизводить популярные мифы, не подтверждённые наукой;
Возможно ли уменьшить ошибку за счёт уточнений или фильтрации источников;
Какие риски создаются для пользователя без медицинской подготовки.

Что и как мы сравнивали

Для анализа мы выбрали пять конфигураций языковых моделей, различающихся по архитектуре, наличию памяти и глубине настройки.

YandexGPT 5.0 (Pro)

Модель с локальной памятью внутри одного чата. Не сохраняет информацию между сессиями и не формирует устойчивых предпочтений.

DeepSeek V3 R1

Аналогичный принцип памяти. Тестировалась в двух режимах: без фильтрации и с акцентом на научные источники.

ChatGPT 3.5 (OpenAI)

Модель младшего поколения. Использовалась в базовой конфигурации без памяти — это позволило оценить склонность к частотным искажениям без влияния контекста.

ChatGPT 4o (OpenAI), без памяти

Флагманская модель, протестирована в режиме по умолчанию. Цель — проверить, насколько её архитектура устойчиво фильтрует дезинформацию без дополнительных настроек.

ChatGPT 4o с памятью и «профилем врача»

Та же модель, но с активной памятью и заранее заданным профессиональным профилем. Этот профиль имитирует поведение врача, ориентированного на доказательную медицину.

Как выглядел «профиль врача» и зачем он нужен

В некоторых моделях (например, ChatGPT с активной памятью) доступна настройка пользовательского профиля. Это не просто «персонализация», а способ стабильно влиять на стиль и логику ответов.

В рамках нашего тестирования профиль врача включал:

приоритет достоверных источников: Cochrane, PubMed, UpToDate, NICE, FDA, ESC, AHA и др.;
акцент на критическую оценку информации и доказательность;
отказ от народных средств и маркетинговых мифов;
чёткое разграничение мнения и факта.

Мы условно обозначаем такую конфигурацию как обладающую критичностью 9,5 из 10. Это означает не жёсткий стиль, а:

склонность сомневаться в популярном;
проверку логики и источников;
отказ от генерации при этических или клинических рисках.

Без профиля даже продвинутые модели адаптируются к тону вопроса вместо того, чтобы следовать научной строгости. Именно профиль делает ИИ устойчивым и безопасным — не потому что он «знает», а потому что ему задали рамки допустимого.

Как проходили эксперименты

Мы придерживались следующей методики:

Один и тот же вопрос задавался всем моделям в идентичной формулировке.
Затем вопрос переформулировался — добавлялись уточнения вроде «что говорят врачи» или «ответь по Cochrane».
В ряде тестов моделям явно указывалось использовать только надёжные источники.
Все ответы фиксировались дословно, сравнивались между собой и с эталонной медицинской позицией.

Как мы оценивали ответы

Для оценки мы использовали пять критериев:

Соответствие принципам медицины основанной на доказательствах (рекомендации, метаанализы, систематические обзоры);
Зависимость от формулировки запроса (насколько ответ меняется при перефразировании);
Наличие опасной или недостоверной информации;
Прозрачность источников (указывает ли модель уровень достоверности);
Клиническая безопасность (готова ли модель отказаться от генерации в потенциально опасной ситуации).

Что важно помнить

Этот этап исследования не ставил цель определить «лучшую» модель. Мы стремились показать:

как архитектура модели влияет на склонность к ошибке;
насколько важна формулировка вопроса;
и при каких условиях модель становится действительно надёжной — особенно в чувствительных медицинских темах.