ИИ как домашний врач. Как мы тестировали: цели, подход, метод
Зачем мы провели это исследование
Мы стремились понять, как языковые модели (ИИ) ведут себя при ответах на медицинские вопросы в условиях, приближенных к реальному использованию. Нас интересовали четыре ключевых вопроса:
- Насколько сильно формулировка вопроса влияет на точность и содержание ответа;
- Склонны ли модели воспроизводить популярные мифы, не подтверждённые наукой;
- Возможно ли уменьшить ошибку за счёт уточнений или фильтрации источников;
- Какие риски создаются для пользователя без медицинской подготовки.
Что и как мы сравнивали
Для анализа мы выбрали пять конфигураций языковых моделей, различающихся по архитектуре, наличию памяти и глубине настройки.
- YandexGPT 5.0 (Pro)
- DeepSeek V3 R1
- ChatGPT 3.5 (OpenAI)
- ChatGPT 4o (OpenAI), без памяти
- ChatGPT 4o с памятью и «профилем врача»
Как выглядел «профиль врача» и зачем он нужен
В некоторых моделях (например, ChatGPT с активной памятью) доступна настройка пользовательского профиля. Это не просто «персонализация», а способ стабильно влиять на стиль и логику ответов.
В рамках нашего тестирования профиль врача включал:
Мы условно обозначаем такую конфигурацию как обладающую критичностью 9,5 из 10. Это означает не жёсткий стиль, а:
Без профиля даже продвинутые модели адаптируются к тону вопроса вместо того, чтобы следовать научной строгости. Именно профиль делает ИИ устойчивым и безопасным — не потому что он «знает», а потому что ему задали рамки допустимого.
В рамках нашего тестирования профиль врача включал:
- приоритет достоверных источников: Cochrane, PubMed, UpToDate, NICE, FDA, ESC, AHA и др.;
- акцент на критическую оценку информации и доказательность;
- отказ от народных средств и маркетинговых мифов;
- чёткое разграничение мнения и факта.
Мы условно обозначаем такую конфигурацию как обладающую критичностью 9,5 из 10. Это означает не жёсткий стиль, а:
- склонность сомневаться в популярном;
- проверку логики и источников;
- отказ от генерации при этических или клинических рисках.
Без профиля даже продвинутые модели адаптируются к тону вопроса вместо того, чтобы следовать научной строгости. Именно профиль делает ИИ устойчивым и безопасным — не потому что он «знает», а потому что ему задали рамки допустимого.
Как проходили эксперименты
Мы придерживались следующей методики:
- Один и тот же вопрос задавался всем моделям в идентичной формулировке.
- Затем вопрос переформулировался — добавлялись уточнения вроде «что говорят врачи» или «ответь по Cochrane».
- В ряде тестов моделям явно указывалось использовать только надёжные источники.
- Все ответы фиксировались дословно, сравнивались между собой и с эталонной медицинской позицией.
Как мы оценивали ответы
Для оценки мы использовали пять критериев:
- Соответствие принципам медицины основанной на доказательствах (рекомендации, метаанализы, систематические обзоры);
- Зависимость от формулировки запроса (насколько ответ меняется при перефразировании);
- Наличие опасной или недостоверной информации;
- Прозрачность источников (указывает ли модель уровень достоверности);
- Клиническая безопасность (готова ли модель отказаться от генерации в потенциально опасной ситуации).
Что важно помнить
Этот этап исследования не ставил цель определить «лучшую» модель. Мы стремились показать:
- как архитектура модели влияет на склонность к ошибке;
- насколько важна формулировка вопроса;
- и при каких условиях модель становится действительно надёжной — особенно в чувствительных медицинских темах.
Содержание цикла «ИИ как домашний врач. Риск и польза»
- Навигационная страница: Содержание цикла
- Введение: ИИ как домашний врач — можно ли ему доверять?
- Как мы проверяли: что, зачем и как тестировали
- Кейс 1. Болит в груди — а ИИ советует ромашку
- Кейс 2. Коллаген и молодость: как ИИ легитимизирует маркетинг
- Кейс 3. мРНК-вакцины и страх: где ИИ теряет доказательность
- Кейс 4. Диета при аутизме: тревожный совет от безразличного помощника
- Заключение: можно ли полагаться на ИИ в вопросах здоровья